Глоссарий терминов стандартизированного тестирования

Glossary of Standardized Testing Terms a parameter In item response theory (IRT), the a parameter is a number that indicates the discrimination of a test item — how sharply the item differentiates between generally strong and generally weak test takers. If the a parameter for an item is large, the probability that the test taker will answer the item correctly increases sharply within a fairly narrow range of ability. If the a parameter is small, the probability of a correct answer increases gradually over a wide range of ability. Ability The knowledge, skills or other characteristics of a test taker measured by the test. Adaptive testing A type of testing in which the questions presented to the test taker are selected on the basis of the test taker's previous responses. Good performance by the test taker leads to harder questions; poor performance leads to easier questions. The purpose of adaptive testing is to use testing time more efficiently, by not giving test takers any questions that are much too easy or much too difficult for them. Adaptive testing requires special procedures for computing test takers' scores, because many different combinations of questions are possible, and some test takers get more difficult questions than others. Alpha coefficient A statistic that is used to estimate the reliability of scores on a test. What alpha actually measures is internal consistency — the extent to which the test takers performed similarly on all the items. Under some assumptions that are usually reasonable, alpha also indicates the extent to which those test takers would perform similarly on two different forms of the same test. The alpha coefficient is commonly used to indicate the reliability of scores on tests in which the questions all measure the same general type of knowledge or skill. However, it can also be used to indicate halo effect among ratings that are intended to measure different characteristics of the people being rated. Analytic scoring A procedure for scoring responses on a constructed-response test, in which the scorer awards points separately for specific features of the response. (Compare with holistic scoring.) Anchor test For equating the scores on two forms of a test that are taken by different groups of test takers, it is necessary to know how those groups differ in the ability measured by the test. An anchor test is a test given to both groups to obtain this information. The anchor test can be a set of test questions appearing in both forms (called "common items"), or it can be a separate test taken by both groups. Assessment, test, examination These terms all refer to devices or procedures for getting information about the knowledge, skills or other characteristics of the people being assessed, tested or examined. The three terms are often used interchangeably, but there are some differences between them. "Assessment" is the broadest of the three terms; "examination" is the narrowest. b parameter In item response theory (IRT), the b parameter is a number that indicates the difficulty of a test question. In general, a higher b parameter indicates a more difficult test question. Biserial correlation A statistic used at ETS to describe the relationship between performance on a single test item and on the full test. It is an estimate of the correlation between the test score and an unobservable variable assumed to determine performance on the item and assumed to have a normal distribution (the familiar "bell curve"). Compare to correlation, point biserial correlation. c parameter In item response theory (IRT), the c parameter is a number that indicates the probability that a test taker with little or no knowledge of the subject will answer the question correctly. Calibration The meaning of this term depends on the context. In item response theory (IRT), "calibration" refers to the process of estimating the numbers (called "parameters") that describe the statistical characteristics of each test question. In the scoring of a constructed-response test, "calibration" refers to the process of checking to make sure that each scorer is applying the scoring standards correctly. Claims Statements about the knowledge, skills or abilities of test takers who have attained a specified level of performance on the test. Claims communicate the meaning of the test scores. Claims may be general (for example, "The test taker can read at the second grade level.") or specific (for example, "The test taker can decode initial consonants."). Classical test theory A statistical theory that forms the basis for many calculations done with test scores, especially those involving reliability. The theory is based on partitioning a test taker's score into two components: a component called the "true score" that generalizes to other occasions of testing with the same test, and a component called "error of measurement" that does not generalize. The size of the "error of measurement" component is estimated using the standard error of measurement. Classification error See decision error. Comparable Two scores are comparable if they can be meaningfully compared. Raw scores on different forms of a test are not comparable, because the questions on one form can be more difficult than the questions on another form. Scaled scores on different forms of a test are comparable if the process of computing them includes equating. Percentile scores are comparable if they refer to the same group of test takers. Computer-adaptive testing Adaptive testing that is conducted with the aid of a computer. For practical and logistical reasons, most adaptive tests are delivered by computer. Confidence interval A range of possible values for an unknown number (such as a test taker's true score), computed in such a way as to have a specified probability of including the unknown number. That specified probability is called the "confidence level" and is usually high, typically 90 or 95. Constructed-response item A test question that requires the test taker to supply the answer, instead of choosing it from a list of possibilities. Constructed-response test Any test in which the test taker must supply the answer to each question, instead of choosing it from a list of possibilities. The term "constructed-response test" usually refers to a test that calls for responses that can be written on paper or typed into a computer. Tests calling for responses that cannot be written on paper or typed into a computer are usually referred to as "performance assessments." Converted score A test score that has been converted into something other than a raw score. One common type of converted score is a "scaled score" — a score that has been transformed onto a different set of numbers from those of the raw scores, usually after equating to adjust for the difficulty of the test questions. Another common type of converted score is a percentile score. Instead of "converted score," the term "derived score" is often used. Correlation A statistic that indicates how strongly two measures, such as test scores, tend to vary together. If the correlation between scores on two tests is high, test takers tend to have scores that are about equally above average (or equally below average) on both tests. The correlation can range from 1.00 to +1.00. When there is no tendency of the scores to vary together, the correlation is .00. Criterion referencing Making test scores meaningful without indicating the test taker's relative position in a group. On a criterion-referenced test, each individual test taker's score is compared with a fixed standard, rather than with the performance of the other test takers. Criterion referencing is often defined in terms of proficiency levels. The test score required to attain each proficiency level is specified in advance. The percentages of test takers at the different proficiency levels are not fixed; they depend on how well the test takers perform on the test. (Compare with norm referencing.) Cutscore A point on the test score scale used for classifying the test takers into groups on the basis of their scores. Sometimes these classifications are used only to report statistics, such as the percent of students classified as proficient in a subject. More often, the classifications have consequences for individual test takers — consequences such as being granted or denied a license to practice a profession. (See also performance level descriptor.) Decision error When test takers' scores are compared with a specified cut score, two kinds of decision errors are possible: (1) a test taker whose true score is above the cut can get a score below the cut; (2) a test taker whose true score is below the cut can get a score above the cut. It is possible to modify the decision rule to make one kind of decision error occur less often, but only at the cost of making the other kind of decision error occur more often. Also called "classification error." Dichotomously scored item An item for which there are only two possible scores, most often 1 for a correct answer and 0 for any other response. Compare with polytomously scored item. Differential item functioning (DIF) Differential item functioning (DIF) is the tendency of a test question to be more difficult (or easy) for certain specified groups of test takers, after controlling for the overall ability of the groups. It is possible to perform a DIF analysis for any two groups of test takers, but the groups of test takers ETS is particularly concerned about are female test takers and test takers from specified ethnic groups. ETS refers to those groups as "focal groups." For each focal group, there is a corresponding "reference group" of test takers who are not members of the focal group. A DIF analysis asks, "If we compare focal-group and reference-group test takers of the same overall ability (as indicated by their performance on the full test), are any test questions significantly harder for one group than for the other?" Discrimination Outside the testing context, this term usually means treating people differently because they are members of particular groups, e.g., male and female. In the testing context, discrimination means something quite different. It refers to the power of a test or (more often) a test question to separate high-ability test takers from low-ability test takers. Distracters (or distractors) In a multiple-choice test item, the distracters are the wrong answers presented to the test taker along with the correct answer. Writers of test questions often use distracters that represent common mistakes or misinformation. Equating Statistically adjusting scores on different forms of the same test to compensate for differences in difficulty (usually, fairly small differences). Equating makes it possible to report scaled scores that are comparable across different forms of the test. Evidence-centered design An approach to constructing educational assessments that uses evidentiary arguments to reveal the reasoning underlying the design of the test. The test designers begin with an analysis of the types of evidence necessary to make valid claims about what test takers know or can do. Formative assessment Assessing students' skills for the purpose of planning instruction for those students. Formative assessment is done before instruction begins and/or while it is taking place. (Compare with summative assessment.) Formula scoring A scoring rule in which each wrong answer reduces the test-taker’s total score by a fraction of a point. That fraction is chosen to make the test-taker’s expected gain from random guessing equal to zero. Compare with number-correct scoring. Grade-equivalent score A type of norm-referenced score expressed in terms of the performance typical of students at a particular grade level, at a particular point in the school year. For example, a grade-equivalent score of 4.2 implies that the test taker's performance on the test would be typical for students in the second month of their fourth-grade year. (See norm referencing.) Halo effect When raters are being asked to rate people on several different qualities, they sometimes tend to rate each person similarly on all those qualities, without recognizing that some people are high on some qualities and low on others. The tendency of raters to ignore these kinds of differences is called "halo effect." Holistic scoring A procedure for scoring responses on a constructed-response test, in which the scorer makes a single judgment of the overall quality of the response, instead of awarding points separately for different features of the response. (Compare with analytic scoring.) Item A test question, including the question itself, any stimulus material provided with the question, and the answer choices (for a multiple-choice item) or the scoring rules (for a constructedresponse item). Item analysis Statistical analyses of test takers' responses to test questions, done for the purpose of gaining information about the quality of the test questions. Item banking Creating and maintaining a data base of test questions. The record for each question includes the text of the question and statistical information computed from the responses of test takers who have taken it. Item response theory (IRT) A statistical theory and a set of related methods in which the likelihood of achieving each possible score on a test question depends on one characteristic of the test taker (called "ability") and a small number (usually three or fewer) of characteristics of the test question. These characteristics of the test question are indicated by numbers called "parameters." They always include the difficulty of the question and often include its discrimination (the sharpness with which it separates stronger from weaker test takers). Some ETS testing programs use IRT for item analysis, item banking and score equating. Mean (of test scores) The average, computed by summing the test scores of a group of test takers and dividing by the number of test takers in the group. Median (of test scores) The point on the score scale that separates the upper half of a group of test takers from the lower half. The median has a percentile rank of 50. Multiple-choice item A test question that requires the test taker to choose the correct answer from a limited number of possibilities, usually four or five. (Compare with constructed-response item.) Noncognitive assessment Attempts to measure traits and behaviors other than the kinds of knowledge and skills measured by traditional academic tests — traits such as "perseverance, self-confidence, self-discipline, punctuality, communication skills, social responsibility and the ability to work with others and resolve conflicts" (R. Rothstein, The School Administrator, December, 2004; www.aasa.org/publications). Norm referencing Making test scores meaningful by providing information about the performance of one or more groups of test takers (called "norm groups"). A norm-referenced score typically indicates the test taker's relative position in the norm group. One common type of norm-referenced score is a percentile score. Another type is a "standard score," which indicates the test taker's relative position in terms of the mean (average score) and standard deviation of the scores of the group. (Compare with criterion referencing.) Normalization Transforming test scores onto a score scale so as to produce a score distribution that approximates the symmetric, bell-shaped distribution called a "normal" distribution. Normalization is a type of scaling. Normal distribution The symmetrical, bell-shaped distribution commonly used in many statistical and measurement applications, especially in computing confidence intervals including score bands. Norms Statistics that describe the performance of a group of test takers (called a "norm group") for the purpose of helping test takers and test users interpret the scores. Norms information is often reported in terms of percentile ranks. Number-correct scoring Computing the total score by counting the number of correct answers, with no penalty for incorrect answers. Also referred to as “number-right scoring” or “rights scoring.” Compare with formula scoring. Objective scoring A scoring system in which a response will receive the same score, no matter who does the scoring. No judgment is required to apply the scoring rule. Compare with subjective scoring. Also see analytic scoring and holistic scoring. Percentile score (percentile rank) A test score that indicates the test taker's relative position in a specified group. A test taker's percentile score (also called "percentile rank") is a number from 1 to 100, indicating the percent of the group with scores no higher than the test taker's score. The most common way to compute the percentile score is to compute the percentage of the group with lower scores, plus half the percentage with exactly the same score as the test taker. (Sometimes none of the test takers with exactly that score are included; sometimes all of them are.) Percentile scores are easy for most people to understand. However, many people do not realize that averages or differences of percentile scores can be very misleading. For example, the difference between percentile scores of 90 and 95 nearly always represents a larger difference in performance than the difference between percentile scores of 45 and 55. Comparisons of percentile scores are meaningful only if those percentile scores refer to the same group of test takers tested on the same test. Performance assessment A test in which the test taker actually demonstrates the skills the test is intended to measure by doing real-world tasks that require those skills, rather than by answering questions asking how to do them. Typically, those tasks involve actions other than marking a space on an answer sheet or clicking a button on a computer screen. A pencil-and-paper test can be a performance assessment, but only if the skills to be measured can be exhibited, in a real-world context, with a pencil and paper. (Compare with constructed-response test.) Performance level descriptor A statement of the knowledge and skills a test taker must have, to be classified at a particular performance level, such as "basic," "proficient" or "advanced." Point biserial correlation The actual correlation between a dichotomous variable (a variable with only two possible values) and a variable with many possible values. Compare to correlation, biserial correlation. Polytomously scored item An item for which there are more than two possible scores (for example, an item with possible scores of 0, 1, 2 or 3). Compare with dichotomously scored item. Portfolio A systematic collection of materials selected to demonstrate a person's level of knowledge, skill or ability in a particular area. Portfolios can include written documents (written by the person being evaluated or by others), photos, drawings, audio or video recordings, and other media. Often the types of documents and other media to be provided are specified in detail. Psychometrician An expert in the statistical operations associated with tests of psychological characteristics, mental abilities, or educational or occupational knowledge and skills. Rasch model A type of item response theory that assumes that a test-taker's probability of answering a test question correctly depends on only one characteristic of the test question, its difficulty. Compare to item response theory. Raw score A test score that has not been adjusted to be comparable with scores on other forms of the test and is not expressed in terms of the performance of a group of test takers. The most common types of raw scores are the number of questions answered correctly, the percentage of questions answered correctly, and, on a constructed-response test, the sum of the ratings assigned by scorers to a test taker's responses. (Compare with converted score.) Reliability The tendency of test scores to be consistent on two or more occasions of testing, if there is no real change in the test takers' knowledge. If a set of scores has high reliability, the test takers' scores would tend to agree strongly with their scores on another occasion of testing. The type of reliability ETS is most often concerned about is consistency across different forms of a test. For a constructed-response test, ETS is also concerned about the consistency of the scores assigned by different scorers (called "scoring reliability" or "inter-rater reliability"). Reliability coefficient A statistic that indicates the reliability of test scores; it is an estimate of the correlation between the scores of the same test takers on two occasions of testing with the same test (typically with different forms of the test). Rights scoring See number-correct scoring. Rubric A set of rules for scoring the responses on a constructed-response item. Sometimes called a "scoring guide." Scaling Statistically transforming scores from one set of numbers (called a "score scale") to another. Some types of scaling are used to make scores on different tests comparable in some way. The most common application of scaling is to make scores on different editions ("forms") of the same test comparable. Sometimes tests in different subjects are scaled to be comparable for a particular group of test takers. Sometimes tests at different difficulty levels in the same subject are scaled so that scaled scores on the tests at any two adjacent levels (e.g., grade levels) will reflect the same degree of proficiency in the subject; this type of scaling is called "vertical scaling." Score band An interval around a test taker's score, intended to convey the idea that an individual's score on a test is influenced by random factors. Often, the boundaries of the score band are one standard error of measurement above and below the test taker's actual score. (A score band determined in this way is a confidence interval with a confidence level, assuming a normal distribution, of 68 percent.) Score bands illustrate the limited precision of the test score as a measure of anything beyond the test taker's performance on one occasion of testing. However, score bands can be misleading in two ways. They imply that the test taker's true score cannot lie outside the band, and they imply that all values within the band are equally likely values for the test taker's true score. Neither of these implications is correct. Selected-response item Any type of test item in which the test-taker’s task is to select the correct answer from a set of choices. Multiple-choice items, true-false items and matching items are all selected-response items. Compare with constructed-response item. Standard deviation (of test scores) A measure of the amount of variation in the scores of a group of test takers. It is the average distance of the scores from the group mean score (but with the average distance computed by a procedure called "root-mean-square," which is a bit more complicated than the usual procedure). The standard deviation is expressed in the same units as the scores, e.g., number of correct answers, or scaled-score points. If there are many high and low scores, the standard deviation will be large. If the scores are bunched closely together, the standard deviation will be small. Standard error of measurement (SEM) A measure of the tendency of test takers' scores to vary because of random factors, such as the particular selection of items on the form the test taker happened to take, or the particular scorers who happened to score a test taker's responses. The smaller the SEM, the smaller the influence of these factors. The SEM is expressed in the same units as the scores themselves.       Standard setting The process of choosing cutscores on a test. Standardized test A test in which the content and format of the test and the conditions of testing (such as timing, directions, use of calculators) are controlled to make them the same for all test takers. (Exceptions may be made for test takers with disabilities.) Stanine score A type of norm-referenced score, in which the only possible scores are the whole numbers from 1 to 9. The score scale is defined so that each score level will include a specified percentage of the norm group: small percentages for the highest and lowest levels; large percentages for the middle levels. (See norm referencing.) Subjective scoring Any scoring system that requires judgment on the part of the scorer. With subjective scoring, different scorers could possibly assign different scores to the same response. Compare with objective scoring. Also see analytic scoring and holistic scoring. Summative assessment Assessing students' skills for the purpose of determining whether instruction has been effective. Summative assessment is done after the instruction has been completed. (Compare with formative assessment.) True score In classical test theory, a test taker's true score on a test is defined as the average of the scores the test taker would get, averaging over some very large set of theoretically possible conditions of testing — for example, all possible forms of the test, or all possible scorers that might score the responses. It is not possible to know an individual test taker's true score, but it is possible to estimate the true scores of a large group of test takers. Validity Validity is the extent to which the scores on a test are appropriate for a particular purpose. The validity of the scores depends on the way they are being interpreted and used. Scores on a test can be highly valid for one purpose and much less valid for another. Statistics can provide evidence for the validity of a test, but the validity of a test cannot be measured by a single statistic. Evidence for validity can include: statistical relationships of test scores with other information (e.g., scores on other tests of the same or related abilities, school grades, ratings of job performance) statistical relationships between parts of the test statistical indicators of the quality and fairness of the test questions the qualifications of the test designers, question writers and reviewers the process used to develop the test experts' judgments of the extent to which the content of the test matches a curriculum or the requirements of a job Promotional Links How ETS Develops Test Questions    Watch Video (Flash, 5:59) > View Transcript > You might also be interested in ... About ETS Education Topics ETS Research Navigation for How ETS Approaches Testing Home Navigation for How ETS Approaches Testing Home Purpose of Standardized Tests How Tests and Test Questions are Developed▼ How Tests and Test Questions are Developed▼ Overview Quality and Fairness   How Tests are Scored Preparing for Tests Frequently Asked Questions Glossary of Standardized Testing Terms Contact Us ETS                         Home About ETS Research Careers Newsroom Conferences Disabilities ETS Store Contact Us Who We Serve K–12 Student Assessment Programs Educator Licensure Assessments Higher Education Community Global Programs and Services English Learners and Teachers Workplace Community View All Tests and Products GRE Tests HiSET Exam The Praxis Series Tests TOEFL Test TOEIC Tests ETS Educator Series ETS Performance Portfolio ETS Skill Builders  ETS Tech Connect  View All  Legal  Privacy and Security  ETS Trademarks  Get Adobe Reader (for PDFs) ETS — Measuring the Power of Learning.® Copyright © 2016 by Educational Testing Service. All rights reserved. All trademarks are property of their respective owners. Unpacking a paradox Doctoral student Kyle Nickodem finds better ways to understand and communicate data about student achievement In 2007, Minnesota’s fourth-grade mathematics score on a national exam was fifth highest in the country, a significantly higher score than Texas. But when test scores were grouped by race, the subgroups of children in Texas—white, black, Hispanic, and Asian/Pacific Islander—scored higher than the same subgroups in Minnesota. Kyle Nickodem wanted to understand how all of the subgroups in one state could get better scores and still fall behind the overall score of another state. He had encountered the phenomenon called Simpson’s Paradox. Simpson’s Paradox materializes when scores do not accurately represent a state’s education system because variables like race distribution and socioeconomic status are correlated with test performance. Because Minnesota has a bigger proportion of white students, who tend to score higher on standardized tests than minority students, Minnesota’s overall average goes up. Texas, with a more diverse population, scores lower. “The states that have a more balanced distribution of ethnic groups are being penalized,” says Nickodem. Nickodem is now a second-year graduate student in quantitative methods in education, part of the Department of Educational Psychology. He and his adviser, associate professor Ernest Davenport, are working to present the numbers in a more accurate way and correct misperceptions in education. Nickodem and Davenport created the Relative Performance Index (RPI), a tool that corrects for Simpson’s Paradox. They base their research on a standardized test given to U.S. fourth- and eighth-graders every two years called the National Assessment of Educational Progress (NAEP). The RPI produces a single score that provides a more accurate depiction of how a state is doing. The score is based on how a subgroup compares to the national average of its respective subgroup before it is rescaled back to the NAEP numbers. For example, in one year’s original NAEP data, Georgia ranked 24 and Pennsylvania 10. After correcting for Simpson’s Paradox using the RPI, Georgia jumped up to 12 while Pennsylvania fell to 14. “Pennsylvania isn’t necessarily doing anything wrong,” says Nickodem. “The Relative Performance Index is a way of showing who is actually educating all of their students, as compared to just the high performing students.” Nickodem is interested in the role that standardized assessments play in education and how they influence the decisions that people make. He has seen the effects of assessments on many levels, from work with kids in schools and communities to the political arena. Personal and political Living in Milwaukee before graduate school, Nickodem spent two years working with College Possible, a nonprofit education organization that began 15 years ago in the Twin Cities, helping low-income students go to college. Nickodem began by helping high school juniors prepare for their upcoming ACT. The following year, he worked with the same students as they toured colleges, wrote essays for scholarship applications, and applied for financial aid. “Learning about their backgrounds and what factors influenced them to get to where they were and why they wanted to pursue a college degree played a big role in the reason I decided to come to the University of Minnesota and focus on improving educational opportunities for all students,” he says. The University provided more ways for Nickodem to continue and expand his work to close gaps. One of them is with Generation Next, an organization seeking to close achievement and opportunity gaps in Minneapolis and St. Paul. Generation Next aims to help citizens and policymakers better understand the data behind statistics. Nickodem has been able to organize information in a way that helps Generation Next representatives speak knowledgeably in the political realm. “This work really opened my eyes to how much of a role politics plays in education,” Nickodem says. Last year, for example, Governor Dayton called for a revaluation of the mandated assessments in the state of Minnesota in his 2014 State of the State address. Though improving education is widely agreed upon across the political spectrum, people often disagree on what changes need to be made and how they should be implemented. For significant advances to take place, Nickodem says, everyone must be on board. Through his work with College Possible and Generation Next and his research on standardized test scores, Nickodem hopes to make a direct impact on changing the educational system as a whole, even if it takes time. “The achievement gap is a big thing right now, and we are learning that it is on individuals to change,” he says. “It was created due to systematic inequalities, so it requires everyone to do their part to change the system that created these inequalities—whether they are in high school, academia, government, or a citizen in the community.” Nickodem is doing his part. Learn more about the quantitative methods program, the Department of Educational Psychology, and Generation Next. Story by Ali Lacey | Photo by Susan Andre | February 2015 Admissions: Quantitative Methods in Education M.A. & Ph.D. Admissions requirements  Graduate School Application  Application fee  Program application  Transcripts  Three letters of recommendation  Graduate Record Examination (GRE) scores  Non-native English speakers: English language test scores (TOEFL, IELTS, etc.)  Strong personal statement  Resume/curriculum vitae Timeline October 15: Application deadline December 1 Fall Ph.D. and summer & fall M.A. applications (for fellowship and departmental financial aid consideration) March 1 Summer and fall applications or fall Ph.D. applications (not seeking fellowship or departmental financial aid consideration) Note: To be considered for fellowships and departmental financial assistance, you must submit all application materials to the program and the Graduate School by the December 1 deadline. Review process The admissions committee considers a variety of factors including your prior academic achievement, GRE scores, relevant employment and life experiences, personal statement, letters of recommendation, and compatibility of your clinical and research interests with those of the program and faculty. Although interviews are not required, you may be called by the program for more information. Admissions decisions When you hear back from the program will vary based on the date you applied and the volume of applications received. All applications will be reviewed by the end of March. For updates on the status of your application, visit ApplyYourself or send an email to psyf-adm@umn.edu. . The Graduate School makes the official admissions determination and will inform you of their decision via the email address provided on the ApplyYourself online application. How to apply Upload and submit all application materials, including transcripts, directly to the ApplyYourself admissions system. For additional information on how to apply, visit the Graduate School website. Graduate School Application Start your application on ApplyYourself Required fields: Personal Information, Application Information, Educational Background, Languages, Awards & Activities, Employment/Residence Information, Financial Support, Applicant Statement #1 (Statement of Interest), Program Supplementary Information and Recommendations. Optional fields: All other fields or application materials are optional, but will be taken into consideration if submitted. Access the online application. Application fee Visit the Graduate School website for more information. Program Application Download the Program Application. Complete the program application form and upload it in the Program Supplementary Information section of the ApplyYourself online application under 'Graduate Program Additional Application. Transcripts Unofficial transcripts or academic records should be uploaded directly to the online application. International students should also upload an English translation if the transcript is not in English. Please do not mail in paper copies of your transcripts, there is no need for official transcripts or academic records for initial review. If you are admitted, the University will then request official copies of this material. More information about transcripts and credentials Letters of recommendation Three letters of recommendation are required. Recommendations should be from professors or others who are able to comment on your educational and professional goals and potential. You must input the names and contact information for each recommendation provider in ApplyYourself. Graduate Record Examination (GRE) scores The GRE (General) is required for all applicants and must have been taken within five years of date of application. Due to the length of processing time all applicants should take the GRE test no later than the October testing date to meet the December application deadline. Be sure to request that ETS send your scores to the University of Minnesota Graduate School (using institution code 6874). Click here for more information about the GRE or to see if the Graduate School has received your official scores. English Language test scores (TOEFL, IELTS, etc.) Students whose native language is not English are required to submit English Language proficiency scores. More information Applicant Statement #1 - Personal statement Upload a statement (not to exceed three double-spaced pages) to your application, outlining your interests and professional goals. This statement is an integral part of your application and will be weighted heavily in its evaluation. You should include, minimally, the following points:  How did you become interested in educational psychology?  What specific factors have led you to apply to Minnesota for this specialization?  From whom have you received encouragement to continue work in educational psychology?  What do you consider to be your outstanding strengths and weaknesses?  Please mention specific skills, special talents or aptitudes. What aspects of or specific problems in your area of specialization interest you most at this point? What kinds of educational psychology work do you see yourself doing seven or eight years after you get your degree? Please describe briefly any participation in research, applied educational psychology, or employment which might be relevant to your application. Resume/curriculum vitae (CV) Upload in the Program Supplementary Information section of the ApplyYourself online application under ‘CV/Resume’. Optional application materials Articles, term papers, theses or reports of experimental investigations Upload publications and articles in the Program Supplementary Information section of the ApplyYourself online application under "Writing Samples." Applicant Statement #2 - Diversity Statement Submitting the diversity statement is optional, however, you are encouraged to submit a statement (per the instructions provided in ApplyYourself) if you feel that submitting such an essay will add important information to your application. Extenuating Circumstances You may upload a brief statement explaining any extenuating circumstances that may have affected your grades or your test scores. Program Supplementary Information - Upload #1 If you wish to be considered for a Common Ground Consortium fellowship for African-American students, please be sure to indicate this on your program application, and then upload a statement briefly addressing the following question: Given that the University of Minnesota is a public grant institution, it is imperative that CGC scholars can both benefits personally from their membership in the program as well as further the university’s founding mission to contribute to scholarship that benefits the local and greater communities. Please describe how your participation as a CGC scholar would do the following:  Enhance your graduate student experience  Prepare you for your chosen career  Benefit the public Funding Fellowships & awards Submit your application materials by Dec. 1, and you’ll automatically be considered for Graduate School fellowships and departmental awards based on scholastic achievement. Notification of awards will be sent in March. Note: Spring, summer, and fall (March deadline) applicants will not qualify for fellowships. Graduate assistantships Get paid to work as a teaching assistant, graduate instructor or research assistant. Graduate assistantships are available through the department, College of Education and Human Development, and the University.  John P. Yackel/Pearson Graduate Internship  Jack Merwin Graduate Assistantship  All University of Minnesota graduate assistantships Note: Spring, summer, and fall (March deadline) applicants will be less likely to receive graduate assistantships than students who meet the Dec. 1 deadline. Financial aid Visit OneStop Student Services for more information on available financial aid. Scholarships Visit the College of Education and Human Development’s Awards page for scholarship information. Contact EdPsych by email Educational Psychology 250 Education Sciences Bldg56 East River RoadMinneapolis, MN 55455 P: 612-624-6083 | F: 612-624-8241  Parking & Transportation  Maps & Directions  College Directory  CEHD  U of M ©2016 Regents of the University of Minnesota. All rights reserved. The University of Minnesota is an equal opportunity educator and employer. Privacy Policy | Last Modified on 9/8/2016 Тестирование персонала: обзор систем и методик На современном этапе развития бизнес-технологий ключевыми ресурсами любой организации, наряду с финансовыми, информационными, технологическими, являются человеческие ресурсы. Предприятия конкурируют в том числе на уровне профессионального развития своих сотрудников – их знаний, умений, навыков. Для наиболее разумного и эффективного использования этого ресурса необходимо правильно его оценить. Различные системы, методы и методики оценки персонала позволяют выявить и раскрыть потенциал каждого сотрудника и направить этот потенциал на реализацию стратегических целей компании. В данной статье мы поможем вам сориентироваться в их многообразии и выбрать именно те, которые наилучшим образом подходят для вашей организации. Оценка в том или ином виде проводится на каждом этапе работы с персоналом:  подбор кандидата на вакантную должность: оценка необходима для установления соответствия умений и навыков кандидата (как профессиональных, так и личностных) должностным требованиям и корпоративной культуре компании;  в ходе прохождения испытания (испытательного срока): целью является дополнительная оценка уровня соответствия сотрудника занимаемой должности и уровня его адаптации в компании;  в ходе выполнения текущей деятельности: на данном этапе оценка направлена на уточнение плана профессионального и карьерного роста сотрудника, принятие решений о премировании, пересмотре заработной платы;  обучение сотрудника (в соответствии с целями компании): необходимо определить текущие знания сотрудника и потребность в его обучении, желательно провести подобную процедуру и после прохождения обучения;  перевод в другое структурное подразделение: следует определить возможности сотрудника для выполнения новых должностных обязанностей;  формирование кадрового резерва: оценка профессионального и в первую очередь личностного потенциала сотрудника;  увольнение: на данном этапе оценка требуется для выявления некомпетентности сотрудника, причем основанием увольнения в этом случае могут служить только результаты аттестации. Формализованные системы оценки персонала Оценка персонала не всегда бывает четкой и формализованной. Однако с развитием анализа бизнеспроцессов, более внимательным отношением к стратегическому развитию компаний стали появляться формализованные системы оценки, основанные на стратегических задачах компаний. Эти системы оценки известны под несколькими вариантами названий: performance appraisal – оценка эффективности работы; performance review – обзор эффективности работы; performance evaluation – оценка выполненной работы; performance assessment – оценка производительности деятельности; performance management report – отчет по управлению эффективностью работы; performance survey – экспертиза эффективности работы; performance summary – краткое резюме эффективности работы; performance rating – определение уровня эффективности работы. Несколько позже появилась более детализированная (основанная на оценке эффективности каждого сотрудника) система Management by Objectives (MBO) – управление результативностью. Суть этого подхода заключается в том, что для сотрудника формируется список ключевых задач (критериев работы) в едином стандарте. Стандарт этот, как правило, включает наименование, описание и весомость задачи, а также планируемые и фактические показатели ее выполнения (с указанием соответствующих единиц измерения) в общем списке задач объекта управления. В данном случае очень важно, чтобы выполнение каждой задачи поддавалось измерению. По истечении утвержденного периода сотрудник и руководитель оценивают выполнение каждой цели (как правило, в процентах) и всего личного плана сотрудника. Постепенно все больший акцент в оценке персонала делался на рассмотрение личных и профессиональных качеств отдельного работника. Так, одна из разработок – Performance management – представляет собой систему более масштабную, чем MBO, так как направлена не только на оценку результата, но и учет «средств», которыми этот результат достигнут, – личных качеств сотрудников. Система «360 градусов» была создана с целью повышения объективности оценки. Предполагается, что в ходе процедуры оценки опрашиваются коллеги, руководители, подчиненные и клиенты сотрудника; это приводит к снижению субъективизма оценки. Процедура проводится в несколько этапов: определяются критерии оценки, составляются опросники, проводится анкетирование, в конце анализируются результаты и разрабатывается план развития недостаточно развитых компетенций. Важно правильно определить критерии оценки, которые не могут быть одинаковыми для разных должностей. Для каждой должности определяется свой круг компетенций с заранее разработанными индикаторами для оценки – поведенческими примерами. Плюс данной системы оценки заключается в ее относительной простоте. Однако следует учесть, что при проведении масштабного исследования затрудняется процесс обработки полученных данных. Кроме того, необходимы четко выработанные критерии оценки. Помимо этого следует правильно организовать сбор информации, проинформировав людей о целях тестирования. Assessment Center – предполагает комплексную оценку сотрудника по компетенциям и, следовательно, более внимательное отношение к личностным и профессиональным качествам конкретного сотрудника. Данная процедура чаще всего включает:  интервью с экспертом, в ходе которого собираются данные о знаниях и опыте сотрудника;  психологические, профессиональные тесты;  краткую презентацию участника перед экспертами и другими участниками;  деловую игру (под руководством наблюдателя группа сотрудников или кандидатов разыгрывает бизнес-ситуацию по заранее подготовленному сценарию);  биографическое анкетирование;  описание профессиональных достижений;  индивидуальный анализ конкретных ситуаций (бизнес-кейсов);  экспертное наблюдение, по результатам которого составляются рекомендации для каждого сотрудника. Для Украины традиционной системой оценки является аттестация. Она применялась на предприятиях еще в советское время. К сожалению, аттестацию сильно недооценивают в качестве системы оценки. По сути она очень схожа с Performance management, однако, являясь процедурой крайне формализованной и регламентированной, существенно отстает в отношении применяемых методов – законодательство не успевает за развитием методов оценки. Кроме того, аттестации подлежат сотрудники, которые занимают должности, закрепленные в нормативных актах, субъектов федерации и муниципальных органов власти. В результате в современных условиях отсутствия единого стандарта должностей проведение аттестации становится возможным только в бюджетных учреждениях. Методы и методики оценки персонала Условно все методы исследования организации можно подразделить на три основных подхода: гуманитарный, инженерный и эмпирический. Методы оценки персонала в наибольшей степени относятся к эмпирическому подходу, так как основываются на распространении успешного отраслевого или функционального опыта, использовании прецедентного опыта в принятии решений. В большинстве случаев оценка – это сравнение полученных в ходе исследования характеристик с характеристиками «эталонного образца». Методы эмпирических исследований принято разделять на количественные и качественные. Количественные методы Количественные методы можно охарактеризовать как формализованные и массовые. Формализация выражается в направленности на изучение строго определенных анализируемых переменных, заданных заранее, и их количественном измерении. Высокий уровень формализации количественных методов связан с их статистической обработкой. Наиболее распространенным количественным методом является анкетирование. В процессе анкетирования сотруднику/кандидату на вакансию предлагается письменно ответить на вопросы, представленные в форме опросного листа – анкеты. Благодаря простоте использования и обработки анкетирование может применяться как отдельно, так и в качестве составляющей практически всех видов комплексной системы оценки персонала. По форме вопросы в анкете разделяются на открытые, предполагающие свободный ответ, и закрытые, ответ на которые заключается в выборе одного (или более) из нескольких предлагаемых в анкете утверждений. Одним из многочисленных вариантов применения анкеты является сбор информации о реальных деловых и личностных компетенциях работника в рамках системы оценки «360 градусов». В данном случае анкетирование его руководителя, коллег, подчиненных и клиентов значительно экономит время как опрашиваемых, так и сотрудника, который занимается обработкой полученных данных. Одним из видов анкетирования, применяемых для оценки персонала, являются личностные опросники – класс психодиагностических методик, предназначенных для определения степени выраженности у индивида определенных личностных особенностей. По форме они представляют собой списки вопросов, при этом ответы испытуемого представлены количественно. Как правило, при помощи этого метода диагностируют особенности характера, темперамента, межличностных отношений, мотивационную и эмоциональную сферы. Следует отметить, что многие из методик изначально разрабатывались и использовались в клинической психологии и лишь затем стали использоваться на предприятиях для оценки персонала. Однако эти методики в большинстве своем не были в достаточной мере адаптированы для оценки сотрудников, поэтому для того, чтобы использовать их в организациях, необходим специалист с достаточно высоким уровнем знаний в сфере психологии. Еще одним важным методом оценки персонала являются тесты способностей. Они представляют собой специально подобранный стандартизованный набор заданий, служащий для оценки потенциальной способности человека решать различные задачи. Любая разновидность тестов интеллекта может рассматриваться как тест способностей. Для выявления специфических способностей, например, к определенным видам деятельности (медицине, технике, юриспруденции, образованию и т.д.) разрабатываются специальные тесты. Пожалуй, самыми распространенными среди методик, применяемых в оценке персонала, являются те, которые направлены на выявление профессиональных способностей сотрудников. Наиболее зарекомендовавшими себя методиками можно считать следующие: Тест структуры интеллекта Амтхауэра: предназначен для определения способности к абстрактному мышлению, памяти, пространственному воображению, языковому чутью, математическому мышлению, образованию суждений и т.п. Тест Гилфорда: позволяет измерить социальный интеллект, который является профессионально важным качеством и позволяет прогнозировать успешность деятельности педагогов, психологов, психотерапевтов, журналистов, менеджеров, юристов, следователей, врачей, политиков, бизнесменов. Тест Равена: позволяет при помощи прогрессивных матриц не только оценить сам интеллект, но и дает возможность составить представление о способности сотрудника к систематизированной, планомерной, методичной интеллектуальной деятельности. Необходимо отметить, что многие из известных тестов способностей не дают достаточно материала для того, чтобы делать на их основе прогнозы. Они позволяют получить ограниченную информацию, которую необходимо дополнять сведениями из других источников. Качественные методы В противоположность количественным выделяют качественные методы исследований, которые являются неформализованными и нацелены на получение информации путем глубинного исследования небольшого по объему материала. Одним из наиболее часто применяемых методов является интервью. Метод интервью отличается строгой организованностью и неравноценностью функций собеседников: интервьюер (специалист, который проводит интервью) задает вопросы респонденту (оцениваемому сотруднику), не ведет с ним активного диалога, не высказывает своего мнения и открыто не обнаруживает своего личного отношения к задаваемым вопросам и ответам испытуемого. Задачей интервьюера является сведение своего влияния на содержание ответов респондента к минимуму и обеспечение благоприятной атмосферы общения. Цель интервью с точки зрения интервьюера – получить от респондента ответы на вопросы, сформулированные в соответствии с задачами исследования (качествами и характеристиками оцениваемого, отсутствие либо наличие которых необходимо выявить). Одним из основных качественных методов оценки персонала также является традиционный анализ документов. Считается, что документы являются или могут являться надежными свидетельствами явлений, происходящих в действительности. Во многом это относится к официальным документам, но может относиться и к неофициальным. Проведение анализа документов означает преобразование первоначальной формы информации, содержащейся в документах, в необходимую для специалиста по оценке персонала форму. Фактически это не что иное, как интерпретация содержания документа, его толкование. В процессе анализа документов могут исследоваться резюме, рекомендательные и сопроводительные письма, документы об образовании (дипломы, сертификаты, квалификационные свидетельства), научно-исследовательские и публицистические работы и др. Существуют методы, содержащие признаки как качественных, так и количественных методов. Прежде всего это относится к бизнес-кейсам. Бизнес кейс – это всестороннее описание ситуации, в которой когда-то оказалась реальная компания. В кейсе, как правило, описывается внешнее окружение и внутренняя среда компании, а также их изменения во времени. События, с которыми столкнулись менеджеры, как и действия последних, приводятся в том порядке, в каком они реально происходили. Но самое главное – в кейсе формулируется проблема, которую должен был решить тот или иной сотрудник компании. Точность и верность выбора типичной рабочей ситуации и профессиональность создания бизнес-кейса определяют надежность прогноза при использовании данного метода. С одной стороны, в методе заложена прагматичность предложенных вариантов решения бизнес-задач, с другой – имеется возможность выявить систему нестандартных подходов к решению типовых ситуаций, что определяет степень креативности работника. На нынешнем этапе большинство специалистов по оценке персонала стремятся создать комплексные системы оценки персонала предприятия, включающие достаточно большое количество методик с целью минимизации ошибок в процессе оценки. Однако прежде всего важно не просто собрать вместе несколько методик, но адаптировать их к условиям, существующим в организации, а зачастую – когда речь идет о зарубежных методиках – и к условиям российской действительности. Огромное значение здесь приобретает профессионализм и опыт специалиста, руководящего процессом оценки, поскольку выполнение данной задачи, помимо соответствующих личных качеств, требует знаний и компетенций в области психологии и понимания бизнес-процессов, целей и специфики деятельности компании. 29.06.2010 Источник: http://www.ukrbiznes.com/analitic/economy/10198.html Таксономия Блума [править | править вики-текст] Материал из Википедии — свободной энциклопедии Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 21 декабря 2015; проверки требуют 3 правки. Перейти к: навигация, поиск Эта страница требует существенной переработки. Возможно, её необходимо викифицировать, дополнить или переписать. Пояснение причин и обсуждение — на странице Википедия:К улучшению/7 декабря 2016. Колесо Блума, сопоставляющее в соответствии с таксономией Блума познавательные уровни, глаголы и возможные виды деятельности с измеримыми результатами. Таксономия Блума — вариант классификации педагогических целей. Предложена группой учёных под руководством Бенджамина Блума в 1956 году, написавшего в том же году книгу «Таксономия образовательных целей: сфера познания». Таксономия Блума предлагает классификацию задач, устанавливаемых педагогами ученикам, и, соответственно, целей обучения. Она делит образовательные цели на три сферы: когнитивную, аффективную и психомоторную. Эти сферы можно приблизительно описать словами «знаю», «чувствую» и «творю» соответственно. Внутри каждой отдельной сферы для перехода на более высокий уровень необходим опыт предыдущих уровней, различаемых в данной сфере. Цель таксономии Блума — мотивировать педагогов фокусироваться на всех трёх сферах, предлагая, таким образом, наиболее полную форму обучения. Содержание [скрыть]     1 Когнитивная область 2 Аффективная область 3 Психомоторная область 4 Ссылки Когнитивная область[править | править вики-текст] Умения и навыки в когнитивной области касаются знания, понимания и критического мышления. Здесь выделяются шесть уровней. Уровни учебных целей Конкретные действия учащихся, свидетельствующие о достижении данного уровня 1. Знание Эта категория обозначает запоминание и воспроизведение изученного материала — от конкретных фактов до целостной теории. — воспроизводит термины, конкретные факты, методы и процедуры, основные понятия, правила и принципы. — объясняет факты, правила, принципы; — преобразует словесный материал в математические выражения; — предположительно описывает будущие последствия, вытекающие из имеющихся данных. — применяет законы, теории в 3. Применение Эта категория обозначает умение использовать конкретных практических ситуациях; изученный материал в конкретных условиях и новых — использует понятия и принципы в ситуациях. новых ситуациях. — вычленяет части целого; — выявляет взаимосвязи между ними; — определяет принципы организации целого; 4. Анализ Эта категория обозначает умение разбить материал на — видит ошибки и упущения в логике составляющие так, чтобы ясно выступала структура рассуждения; — проводит различие между фактами и следствиями; — оценивает значимость данных. — пишет сочинение, выступление, доклад, реферат; 5. Синтез Эта категория обозначает умение комбинировать — предлагает план проведения элементы, чтобы получить целое, обладающее новизной. эксперимента или других действий; — составляет схемы задачи. — оценивает логику построения письменного текста; 6. Оценка — оценивает соответствие выводов Эта категория обозначает умение оценивать значение имеющимся данным; того или иного материала. — оценивает значимость того или иного продукта деятельности. 2. Понимание Показателем понимания может быть преобразование материала из одной формы выражения — в другую, интерпретация материала, предположение о дальнейшем ходе явлений, событий. Аффективная область[править | править вики-текст] Умения в этой области отражают то, как человек реагирует эмоционально, насколько он способен чувствовать чужую радость или боль. Аффективные цели связаны с человеческими отношениями, эмоциями, чувствами. Психомоторная область[править | править вики-текст] Умения в этой области описывают способность к манипуляциям с орудиями или инструментами. Психомоторные цели обычно связывают с изменением или развитием практических навыков. Ссылки[править | править вики-текст]  Таксономия Блума на сайте ЦНИТ МЭИ (ТУ) (Проверено 26 декабря 2009)[неавторитетный источник?] Для улучшения этой статьи желательно?:  Найти и оформить в виде сносок ссылки на независимые авторитетные источники, подтверждающие написанное.  Проверить достоверность указанной в статье информации. Это заготовка статьи об образовании. Вы можете помочь проекту, дополнив её. <img src="//ru.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;" /> Источник — «https://ru.wikipedia.org/w/index.php?title=Таксономия_Блума&oldid=82347210» Категории:    Педагогика Появились в 1956 году Психологические теории Скрытые категории:         Статьи на улучшении менее 30 дней Википедия:Страницы на КУЛ (объекты менее указанного лимита: 7) Википедия:Статьи для срочного улучшения Статьи с утверждениями, основанными на неавторитетном источнике Википедия:Статьи без ссылок на источники Википедия:Статьи без источников (тип: классификация) Википедия:Статьи, достоверность которых требует проверки Незавершённые статьи об образовании Навигация  Последнее изменение этой страницы: 16:14, 7 декабря 2016. Типы и подтипы тестов достижений Типология тестов достижений обычно проводится по следующим основаниям. 1. Точка отсчета в интерпретации тестовых показателей. В этом плане выделяют тесты достижений, ориентированные па норму, и тесты достижений, ориентированные на критерий. 2. Применение процедур стандартизации при подготовке и проведении теста. В связи с этим основанием выделяют стандартизированные и неформализованные тесты достижений. Нормоориентированные и критериально-ориентированные тесты достижений Использование тестирования в оценке учебных достижений учащихся уже на первых этапах своего развития проявилось в двух формах, различных по своему содержанию и исследовательской направленности. В одной из этих форм внимание сконцентрировано на оценке индивидуальных достижений по сравнению с достижениями других членов учебной группы или статистически определяемой нормативной группой, относительный статус каждого отдельного ученика. при этом фиксируется Другая форма — практика оценивания результатов обучения в зависимости от того, какая часть учебной программы или какие структурные компоненты навыков и умений освоены учеником, или, иными словами, каков его абсолютный статус. Э. Л. Торндайк, одним из первых указавший на подобную дилемму в оценивании результатов обучения, отметил, что эффективность контроля этих результатов тесно связана с приспособлением проверочной процедуры, фиксирующей относительное положение испытуемого в исследуемой выборке к тем формам тестового контроля, результаты которого прямо соотносятся с учебной информацией, подлежащей усвоению[1]. На протяжении многих десятилетий тесты достижений создавались по правилам классической теории теста. Результаты тестирования сообщались таким образом, чтобы их можно было сравнить с результатами тестирования всей соотносительной группы (чаще всего всех классов того или иного выпуска). Такие тесты называют нормоориентированными, поскольку их результаты соотносятся с нормами, полученными на выборке стандартизации. Нормоориентированные тесты создаются специально для того, чтобы обеспечить сравнение испытуемых в той области содержания, для которой данный тест предназначен. Для этого используются нормативные шкалы. Обработанные баллы по результатам таких тестов основываются на статистических данных, полученных на достаточно большой по объему выборке (выборка стандартизации). Это специально подобранная группа испытуемых, адекватно представляющих популяцию, для которой разрабатывается данный тест. Каждый индивидуальный балл для теста имеет однозначное соответствие с показателем, определенным на нормативной группе (тестовой нормой). Для того чтобы эти тесты выполнили свою главную задачу — дифференцировать испытуемых, при их разработке стараются получить высокую вариативность тестовых баллов. Нормоориентированные тесты конструируются таким образом, чтобы распределение полученных в них результатов было близко к нормальному. Внедрение в образовательный процесс школ США обучающих машин и применение индивидуализированных программ побуждали к разработке методик, результаты которых позволяли бы установить, что именно и в каком объеме из предложенной учебной программы усвоил учащийся. Действительно, если 90% учащихся или более достигают учебных целей, то в таком случае возникает отклоняющееся от нормальной кривой нагромождение результатов тестирования на одном конце шкалы. При подобном искаженном распределении большинство формул классической теории теста уже не могло применяться. Здесь следует использовать критериально-ориентированный подход, позволяющий оценивать, в какой степени испытуемые овладели тестируемым содержанием. Критериально-ориентированный (criterion-referenced) тест измеряет, что индивид знает или умеет делать по сравнению с тем, что он должен знать или уметь делать для того, чтобы успешно решить задачу. Оценка результатов теста относительно достигнутого критерия означает, что они истолковываются в соответствии со стандартами выполнения. В измерениях, ориентированных на критерий, необходимо определить: - достигнута или не достигнута учебная цель, представленная в конкретном задании; — какой процент заданий решил учащийся; - к какому уровню успешности необходимо отнести учащегося, учитывая его степень приближения к учебной цели. Выводы, которые делаются на основании результатов тестирования, всегда выражаются в терминах специфического содержания, конкретны и тем самым открывают путь для коррекции (например, ученик правильно называет и описывает три вида деревьев, но не приводит примеры их ценности). Оценивание результатов обучения, основанное на статистической норме, можно считать объективным лишь постольку, поскольку оно является всегда результатом алгоритмизированной статистической обработки. Всякий, кто будет давать педагогические рекомендации, основываясь на полученных учащимися оценках, выраженных теми же суммарными показателями, охарактеризует их одинаковым образом, разница между ними будет только количественная. Вместе с тем сильные и слабые стороны учащихся в овладении знаниями и навыками — то, что, собственно, интересует педагога, — не могут быть объективно проанализированы при применении нормоориентированных тестов. Результаты критериально-ориентированного теста, напротив, содержат конкретную информацию о том, что и как из заданного учебного материала усвоено учащимися. На сегодняшний день большинство тестологов признают, что между критериально-ориентированным и ориентированным на норму подходами имеются существенные различия. Цели, для которых изготавливаются тесты, специфичность информации, которой они снабжают при оценивании результатов выполнения учебных задач, способы конструирования и обработки — все это служит основанием для различия этих двух видов тестов[2]. Однако теория и практика исследований в области критериальноориентированного подхода показали, что различия между традиционным и новым подходами открываются не тогда, когда интерпретируются результаты тестирования. Различия закладываются с первых шагов конструирования тестов, актуализирующих тот или другой подход, и в значительной степени обусловлены конкретными целями диагностических исследований, по отношению к которым тот или иной подход оценивается как адекватный или неадекватный[3]. Критериально-ориентированный тест изначально конструируется с прицелом на определенную учебную задачу, между ним и задачей заранее планируются отношения содержательного соответствия (релевантности). По отношению к КОРТ учебная задача является не внешним критерием, с которым впоследствии будут соотнесены тестовые показатели, но той реальностью, цели, содержание, способы выполнения которой тест выявляет. Предположим, что ученикам 5-го класса дано задание выполнить проект в отношении деревьев и написать отчет, который содержит рисунки местных деревьев и их листьев, информацию о деревьях с точки зрения их вклада в экологию и качество жизни и рекомендации, как помочь защите деревьев. Для такого задания составитель теста определяет критерии процесса выполнения и получения конечного продукта. Соответственно, критериям: оценка проекта будет осуществляться согласно таким — доклад сделан аккуратно; — нарисованы и обозначены по крайней мере три разных вида деревьев; — описан каждый вид деревьев; — описана ценность деревьев; — описаны способы защиты деревьев. Подобная эталонная модель выполнения задания может быть использована для оценки доклада каждого ученика. Тот факт, что критериально-ориентированное тестирование является оптимальной моделью диагностики результатов усвоения умений и навыков, не означает, что этот вид тестирования может быть применен исключительно в целях диагностики узких областей учебного содержания. Тем не менее в тестологической литературе неоднократно отмечалось и отмечается, что область применения критериально-ориентированной стратегии заведомо ограничена узко специфическими целями и задачами обучения. При анализе подобных критических замечаний следует учитывать, что критериально-ориентированные тесты могут быть построены на основе разных концепций критерия. Получившие распространение в начале 1970-х гг. в США и других англоязычных странах критериально-ориентированные тесты были построены в соответствии с концепцией критерия как эталонной совокупности предметных знаний и умений. В рамках этой концепции использовались такие критерии, как уровень выполнения и уровень мастерства. Истолкование критерия как уровня выполнения было неотъемлемо связано с теми идеями педагогической психологии, согласно которым учебный процесс понимается как последовательная отработка каждого из элементов учебного поведения. Последние фиксируются как репертуар наблюдаемых внешних действий, поддающихся однозначному измерению и соответствующему контролю. При этом цели учебного процесса подлежат обязательному переводу на виды действий, открытых для наблюдения и контроля. Достижение учебной цели обычно фиксируется процентно-верным уровнем выполнения заданий КОРТ. Эмпирически установлено, что уровень выполнения тестов, соответствующий требуемому усвоению, должен быть порядка 80—100%. Как показала практика, фиксация этого уровня отражает устойчивые положительные результаты усвоения материала, большинство учащихся сохраняют при этом интерес к предмету. Снижение критериального уровня до 75% дает ухудшение учебных результатов. Критериально-ориентированные тесты, разработанные с учетом уровня выполнения, широко используются в программированном обучении. Нужно отметить, что первые такие тесты появились в связи с внедрением в учебный процесс обучающих машин, и несостоятельность статистической нормы в установлении требуемого уровня выполнения отчетливо проявилась. На первый план выступила необходимость установить, что из заданного объема программы усвоено учеником и в какой мере он продвинулся в овладении учебным материалом по сравнению с тем, что знал раньше. В случае, если результаты тестирования не соответствовали критерию — процентно-верному результату, ученику рекомендовали вернуться к тем фрагментам учебного материала, которые требовали дополнительной проработки. Исследователи и учителя, используя в учебном процессе индивидуальные программы и оперируя критериями их усвоения, также не могли не обратить внимания на то, что часть учащихся не достигает заданного уровня, поскольку у них не складывается необходимая совокупность умений. Было высказано предположение, что умения и составляющие их операции, не получая достаточной проработки в учебном процессе, либо не формируются, либо закрепляются и интегрируются в дефектные системы. В теории и практике КОРТ возникает понимание критерия как уровня мастерства, т.е. эталонной совокупности всех операциональных компонентов, составляющих конкретное умение. Располагая такой характеристикой, учитель или исследователь может сравнить то, что делает ученик, с тем, что он должен уметь делать. Особенность критериально-ориентированных тестов, направленных на установление уровня мастерства, состоит в том, что они не только выявляют объем усвоенного материала, но и указывают на возможности ученика активно использовать полученные знания в усвоении нового, более сложного материала. Как уже упоминалось, тесты с ориентацией на уровень выполнения могут установить (и это соответствует их сути), что тот или иной ученик достаточно подготовлен, чтобы перейти на следующий этап обучения. При этом остается неясным, организованы ли имеющиеся у ученика знания и навыки в приспособленные для решения конкретных задач эталонные структуры, а также на каком уровне усвоения они находятся. Уровень мастерства воплощает в себе критериальные требования, которые прежде всего обусловлены сложившимися в теории и методике обучения стандартами и образцами усвоения. Последние зафиксированы в школьных образовательных программах как состав учебных умений. Допустим, для педагогической практики потребовался тест, который контролировал бы, в какой мере у учащихся сложилось понимание прочитанного. Это умение может быть рассмотрено с точки зрения его структурных компонентов. Вот примерный их перечень: постановка вопросов к прочитанному тексту, переформулирование трудных мест, выделение главных мыслей, составление плана к прочитанному тексту. Будет недостаточно назвать только эти компоненты. Каждый из них должен быть конкретизирован прежде всего в плане его внешних проявлений, т.е. реализующих их операций. Например, такой компонент, как выделение главной мысли, может быть операционально представлен следующим образом: 1) подчеркнуть предложение, выражающее главную мысль отрывка; 2) выбрать заголовок для отрывка; 3) перечислить факты, подтверждающие основную мысль, и т.д. В таком КОРТ каждый из выделенных компонентов должен исследоваться отдельным субтестом. В субтест войдут задания, в которых представлены все операциональные формы соответствующего компонента. На основании результатов подготовленного таким образом КОРТ можно будет делать конкретные выводы о том, какими компонентами (и в каких операциональных формах) понимания прочитанного владеют или еще не овладели учащиеся. Это позволит судить о причинах затруднений и принять соответствующие коррекционные меры[4]. Результаты теста, использующего такой критерий, как уровень мастерства, можно надежно определить при условии, если будет подготовлен так называемый лист контроля выполнения задания. В нем указываются особенности или характеристики процесса выполнения или итогового результата, который можно наблюдать, чтобы подтвердить качество решения тестового задания. Например, в образце практического теста "Разделение угла пополам" определяются следующие шаги: - используется циркуль; - конец циркуля помещается в вершину угла, между сторонами проводится дуга; - острие циркуля помещается на каждое пересечение дуги и стороны угла, проводятся равные дуги; - от вершины угла к точке пересечения дуг проводится линия; - при проверке с транспортиром видно, что два полученных угла равны между собой[5]. Иными словами, лист контроля выполнения — это список заранее определенных действий, обусловливающих успешность решения данного задания. Наблюдая, как ученики выполняют подобные задания, исследователь отмечает все осуществляемые ими действия в соответствии с проверочным листом и использует их в качестве основы для определения меры соответствия эталону процесса выполнения задания. Известно, что между разработкой диагностических тестов и педагогической теорией и практикой обучения, для которой данные тесты предназначены, всегда имеется тесная связь. Все черты концепции критерия в КОРТ, которые были изложены выше, основываются на бихевиористической модели обучения. Постулируемый этой моделью отрыв учебных знаний и навыков от умственного развития отразился в критериально-ориентированном тестировании. В отечественной психолого-педагогической литературе неоднократно отмечалось, что овладением структурно-операциональным составом учебного задания не исчерпывается анализ выполнения задания. Усвоение учебного материала предполагает соответствующий уровень умственного развития, в частности сформированность соответствующих материалу умственных действий. Критериально-ориентированные тесты, в которых диагностическими показателями служат выполняемые умственные действия, воплощают такую концепцию критерия, как логико-психологическая подготовленность ученика к выполнению заданий. Подобные критерии предназначены для того, чтобы установить, соответствует ли умственное развитие учащегося требованиям, предъявляемым материалом учебно-образовательных программ. При таком подходе результаты испытаний при их сравнении с критерием дадут информацию о том, представлены ли в мышлении ученика необходимые для усвоения новых разделов программы умственные действия, может ли он уверенно их использовать при выполнении новых видов заданий. Имеется определенный опыт разработки тестов, отражающих указанную концепцию критерия[6]. В отличие от тестов, ориентированных па уровень выполнения или уровень мастерства, рассматриваемые КОРТ являются тестами с психологическим содержанием. При их разработке используются методические приемы, выявляющие способы ориентации в предметном материале, каждый из которых обусловлен субъективной логикой учащихся, овладевающих требуемыми умственными действиями. Определение в качестве критерия умственных действий, которыми должны владеть учащиеся, и сопоставление результатов тестирования с данными о процессе выполнения учебных заданий позволяют установить причины затруднений в осуществлении определенных умственных действий, а также выявить присущие учащимся способы выполнения учебных заданий. Тесты с таким психологическим содержанием приобретают новые функции, расширяющие традиционное понимание достижений и методов их диагностики. [1]Popham W.J. Criterion-referenced measurement. New Jersey : Knglewood Cliffs. 1978. P. 16. [2]Berk R. A. Criterion-referenced measurement: The state of art. Baltimor, MD : Johns Hopkins o o 1980 ; Pop/mm W.J. Op. cit. o o o o univ. press, [3]Popham W.J. Op. cit. P. 28. [4]Gronlund N. Constructing achievement tests. 3ixl ed. New Jersey: Prentice Hall, 1982. [5]Turkman B. W. Conducting educational research. 3rd ed. N. Y. : Harcourt Brace Jovanovich, 1988. [6] Берулава Г. А. Психология естественнонаучного мышления. Томск : ТГУ, 1991; Критериально- ориентированное тестирование в диагностике умственного развития школьников // Вопросы психологии. 1988. № 2. С. 58—68; Татарчук Д. П. Критериально-ориентированная диагностика уровней умственного развития младшего подростка ; автореф. дис.... канд. психол. наук. М., 1993. Эмпирическая проверка и экспертиза теста Тест с прилагаемой к нему таблицей спецификации подлежит экспертизе. В качестве экспертов могут выступить учителя-предметники, методисты, психологи образования. Самым простым вариантом экспертизы может быть такой, когда экспертам предлагается по трех- или пятибалльной шкале оценить задания с точки зрения: — соответствия целям тестирования (отвечает — частично отвечает — не отвечает); - однозначности неоднозначна); формулировки (однозначна — не совсем однозначна — — пригодности вариантов ответов (подходят — частично подходят — не подходят). В самом общем виде тестовые задания должны: - соответствовать содержанию учебного материала; - быть составленными с учетом соответствующих правил. Экспертизу на соответствие тестовых заданий этим параметрам следует проводить по двум основным разделам. Оценке подлежат как отдельные задания, так и тест в целом. Экспертам выдается специальный оценочный лист, основное содержание которого приведено ниже (для каждого пункта предусматривается осуществление позитивной или негативной оценки). I. Обоснование и операционализация тестового конструкта. 1. Отвечает ли тест в целом целям, установленным для образовательной программы? 2. Охватывает дисциплины? ли тест необходимые дидактические единицы изучаемой 3. Четко или однозначно определены поведенческие индикаторы тестируемого содержания? 4. Можно ли ответить на вопрос теста, применяя другую форму мыслительной активности (умение, навык, умственное действие)? 5. Обоснована ли степень трудности теста в целом, его отдельных заданий и субтестов? II. Обоснованность тестовых заданий и их оценки. 1. Подготовлена ли технологическая матрица и отражает ли она тестируемое содержание и виды познавательной деятельности учащегося? 2. Соответствует ли содержанию форма и разнообразие тестовых заданий? 3. Соответствуют ли данные экспертом ответы ключу теста? 4. Предусмотрена ли градация оценок для заданий открытого типа? 5. Ведется ли учет неверных ответов? После разработки и проведения экспертного анализа заданий подготавливается рабочий вариант теста. Чтобы обеспечить его качество, требуется проведение эмпирической проверки теста на группе испытуемых, имеющих такие же образовательные характеристики, как и у той, для которой предназначен разрабатываемый тест. В ряде случаев, особенно если конструируется стандартизированный тест, осуществляется анализ трудности и различающей способности тестовых заданий с использованием математических методов, который позволяет получить о заданиях информацию, которую не всегда возможно выявить с помощью экспертных методов. Трудность — это характеристика заданий теста, отражающая статистический уровень ее решаемости в выборке, на которой осуществляется эмпирическая проверка теста. В тестах учителя она обычно рассчитывается как отношение числа тестируемых, правильно выполнивших задание, к общему числу тестируемых. Этот показатель меняется в пределах от нуля до единицы. Его значения тем больше, чем ниже трудность задания. Проверка критериально-ориентированного теста (КОРТ) заключается в отборе заданий, адекватно отражающих выполнение учебной задачи. При этом качество задания не определяется тем, будут ли они трудными или легкими, подчиняются ли они нормальному распределению результатов или нет. Если подтверждается, что большинство испытуемых, прошедших определенный этап обучения, справляется с тестовым заданием, а большинство необученных с ним не справляется, то это может служить необходимым основанием для включения этого задания в КОРТ. Необходимым, но не достаточным. Исследователь должен также убедиться, что испытуемые, успешно выполнившие задания, действительно применили навыки, заложенные в критерии, а не просто показали свою способность запомнить нужные термины или механически воспроизвести требуемые алгоритмы действий. Поэтому анализ задания в КОРТ должен быть сосредоточен на тщательной проверке состава выполнения задания, а не только на его статистических свойствах. Для расчета показателей различающей способности тестовых заданий требуется проведение двух серий измерений: повторного тестирования одной группы учащихся или проведения теста на двух разных группах. Эксперт выбирает из группы тестируемых только тех, про которых он может определенно утверждать, что они очень хорошо владеют материалом и, наоборот, тех, кто плохо знает материал. Они составляют, соответственно, сильную и слабую контрастные группы. Важно, чтобы контрастные группы были, по возможности, гомогенны по составу. Это значит, что в них примерно в одинаковой пропорции должны быть представлены учащиеся обоих полов, с разными социокультурными характеристиками, с разным академическим статусом (успеваемостью). Самый простой и известный показатель различающей способности (Яр) вычисляется как разность между долей испытуемых из "сильной" группы, правильно выполнивших задание, и долей испытуемых из "слабой" группы, тоже правильно выполнивших задание. Данный показатель высчитывается по следующей формуле: где Яр — показатель различающей способности; ЛГ( и /У2 — количество испытуемых в "сильной" и "слабой" контрастных группах; И] и П — количество испытуемых в "сильной" и "слабой" контрастных группах, правильно выполнивших задание. Этот показатель может принимать значения от -1 до +1. Если Яр равно +1, это означает, что задание обладает максимальной различающей способностью. Если Яр равно 0, задание совершенно не различает испытуемых, овладевших и не овладевших учебным материалом. Если Яр равно -1, что практически не встречается, то задание различает испытуемых, но противоположным образом: правильно отвечают неовладевшие предметным содержанием, а овладевшие им отвечают неправильно[1]. Существенным вкладом в эмпирическую проверку теста вносит оценка его надежности и валидности. Под надежностью обычно понимают согласованность результатов тестирования на одной и той же выборке испытуемых при разных условиях. Чаще всего прибегают к так называемой ретестовой надежности, для установления которой на одной и той же группе испытуемых тест проводят два раза и сравнивают полученные тестовые баллы. Основное внимание следует уделять правильному выбору величины временного интервала между двумя испытаниями. Если временной интервал слишком короткий (менее двух месяцев), то испытуемые будут просто помнить свои предыдущие ответы и вероятнее всего повторят их. Если временной интервал большой (свыше 8 месяцев), то измеряемое свойство может измениться под влиянием каких-либо факторов, тогда заметные различия между результатом первого и второго тестирований будут связаны не с низкой надежностью теста, а именно с изменением измеряемого свойства. Проверка валидности основывается на изучении целей обучения, достижение которых тестируют у учащихся. Учебные цели должны также быть целями теста достижений относительно измеряемых знаний, умений, навыков. Этот тип валидности называется валидностью, относящейся к содержанию. Есть и другие виды валидности тестов, но они не столь хорошо применимы к этой категории тестов. Мерой валидности теста является степень соответствия заданий теста целям тестируемых с их помощью тем, разделов, предметных областей. Сопоставляя задания теста с целями их изучения, разработчик теста должен определить, охватывают ли эти задания, во-первых, все цели, значимые для обучения (так, что никакая цель не остается неизмеренной), и, во-вторых, цели, отвечающие каждому заданию теста, сформулированы таким образом, чтобы в этих формулировках указывалось, какие действия должен совершить ученик, выполняющий задание. Если, к примеру, в формулировке цели использован глагол "выявить", то задания теста, в котором измеряется достижение этой цели, должны также требовать, чтобы учащийся указал правильный ответ, как это предлагается в задании с множественным выбором. Глагол "описать" потребовал бы ответа в свободной форме, как в эссе-тесте, а глаголы "продемонстрировать" или "построить" — фактического выполнения этих действий по крайней мере на бумаге с помощью карандаша. Валидные задания требуют выполнения тех же действий, которые указаны в измеряемых ими целях. Чтобы их признали валидными, задания теста также должны соответствовать по своему содержанию той образовательной цели, которую они измеряют. Факт, концепция или правило, названные в цели теста, должны быть теми, что измеряются в задании теста. И это соответствие должно быть по возможности более точным. Если, например, в цели теста сказано "описать типичного представителя класса земноводных", то задания должны выявлять, как формированы знания о земноводных, а не о представителях других зоологических групп. Вопрос о том, в какой мере задания теста адекватно представляют определенную содержательную область, имеет скорее качественное, чем количественное решение. Вместе с тем, экспертные заключения по содержанию теста могут опираться на некоторые количественные показатели. Обычно в качестве таких показателей применяются: — процент заданий, соответствующих учебным целям; - процент заданий, соответствующих целям с высокой оценкой важности; - конгруэнтность (согласованность и соразмерность) заданий и целей теста. Последний показатель может использоваться для оценки степени содержательной валидности разработанного теста. Максимально возможная величина оценки конгруэнтности между заданиями и тестируемыми целями, равная 1,0, может быть получена только в том случае, если соразмерность задания и цели указали все эксперты. Если отдельное задание теста относится к разным целям, то его показатель будет ниже 1,0. После надлежащей проверки тест готов к использованию. Совершенствование теста и анализ результатов его применения Опыт проведения тестирования, как и любой аспект психологической практики, нуждается в анализе его применения. Если обратиться к отдельным положениям Кодекса справедливой практики тестирования в образовании, подготовленного Объединенным комитетом по практике тестирования США, то можно заметить, что работа по совершенствованию процедуры тестирования и оценки диагностических возможностей теста продолжается после того, как он пущен в оборот. В соответствии с требованиями упомянутого Кодекса, составляя соответствующие тесты, их разработчики должны: — определять, что измеряет каждый тест и для чего он должен использоваться; — точно представлять характеристики, полезность и ограничения тестов по отношению к оценке того, для чего они предназначены; — объяснять измеряемые понятия и умения на необходимом уровне ясности и в деталях, соответствующих особенностям аудитории, для которой они предназначены; — описывать процесс разработки тестов, объяснять, производился отбор содержания и оцениваемых умений; па основании чего — предоставлять очевидные доказательства, что тест измеряет то, для чего он предназначен; — предоставлять пользователям, имеющим необходимую квалификацию, или образцы всех заданий, или полные их списки с обязательным приложением, включающие перечни ответов, описания и тестовые показатели; - выявлять и публиковать информацию о любых специальных умениях, необходимых для проведения тестов и интерпретации полученных результатов. Интерпретируя показатели, разработчик тестов должен: - вовремя и с готовностью предоставлять полученные показатели, описывающие выполнение тестов с необходимым уровнем четкости и определенности; — описывать популяцию, представляющую любую норму, или сравнительную группу; — предоставлять информацию, способную помочь пользователям следовать необходимым процедурам для получения искомых показателей и их пригодности в использовании[2]. Применяемые в тестировании критерии оценивания важно сохранять до следующего использования. Это позволит совершенствовать процесс оценивания и проводить сравнения достижений учащихся на последовательных этапах обучения. o o [1]Адаптивное тестирование : учеб.-метод. пособие / II. М. Опарина [и др.]. Хабаровск : ДВГУПС, 2007. [2]Elliott S. N.. Kratochwill Т. R., Littlefield J., Trovers J. F. Educational Psychology: Effective Teaching, Effective Learning. 3rd ed. Madison : McGraw Hill, 1999. P. 589-590. Стандартизированные тесты и неформальные тесты достижений Стандартизированные тесты — это опубликованные тесты, используемые для итогового контроля успешности. Поскольку такие тесты проводятся во многих школах по всей стране, то их содержание не может в каждом случае соответствовать учебной программе в той же степени, в какой ей соответствуют тесты, составленные учителями. Они предназначаются для определения соответствия достижений некой идеальной общенациональной учебной программе (часто основанной на обобщении материала различных учебников). Эти тесты написаны профессиональными составителями, задания, включенные в них, прошли испытания, а результаты подверглись специальному анализу, и в итоге такой инструментарий обладает большей надежностью, чем тесты, составленные учителями. Фактически их надежность почти всегда находится между 0,90 и 0,97. Поэтому такие тесты точны и последовательны, а их результаты соответствуют кривой нормального распределения. Для получения норм составители тестов дают опубликованные тесты представительной группе тестируемых, называемой нормировочной группой. Члены этой группы отбираются так, чтобы представлять учеников, чьи результаты будут впоследствии оцениваться путем сравнения с результатами, полученными нормировочной группой. Поэтому члены нормировочной группы представляют все возрасты, все уровни аттестации, все части страны (как географические, так и городские, пригородные и сельские), все этнические группы и все социальноэкономические уровни населения, чтобы итоговые нормы имели самую широкую применимость. Метод проведения этих тестов столь же стандартизирован, сколь и сами эти тесты (еще одна причина, по которой они называются стандартизированными). Инструкции по их проведению расписаны детально. Среди стандартизированных тестов достижений могут быть выделены следующие их основные подтипы: — батареи общих достижений, приспособленные для измерения итоговых результатов усвоения образовательных программ; — тесты по конкретным учебным предметам, используемые в школах, колледжах и университетах в целях контроля эффективности предметного обучения; — тесты мониторинга образовательных результатов, основной целью которых является получение информации о результатах обучения в разных странах мира, сравниваемых на международном уровне. Батареи общих достижений представляют собой широко ориентированные тесты, они применяются для оценки достижений главных, долгосрочных целей обучения. Такие батареи стати разрабатываться в начале XX столетия и в настоящее время применяются в образовательной практике США. Большинство тестовых батарей охватывают все уровни школьного обучения и являются скоординированной серией тестов, позволяющей сопоставить результаты учащихся на разных этапах обучения. Одной из самых известных батарей является Стэндфордский тест достижений (Stanford Achievement Test Series). Он предназначен для измерения у учащихся начальной и средней общеобразовательной школ США базисных уровней овладения чтением, математикой, родным языком, естественными и социальными науками, а также навыками слушания. Седьмая, последняя редакция батареи применяется в разных образовательных группах — от детского сада до 13-го класса. Проведение всей батареи занимает пять получасовых и два 15-минутных периода с короткими перерывами между ними. Тестовая батарея состоит из следующих субтестов. "Словарь": субтест изучает словарный запас с помощью устного предъявления незавершенных предложений с просьбой к ребенку выбрать из данных слов наиболее подходящее. "Понимание прочитанного": ребенка просят прочитать отрывок прозы или стихотворения и к каждому задают серию вопросов. Для того чтобы дать правильные ответы, учащийся должен уметь выделять главную мысль отрывка, ключевые моменты текста, понимать его скрытый смысл, уметь делать выводы из прочитанного. "Навыки анализа слов": ученик должен произнести зрительно предъявляемые ему отдельные буквы и их сочетания, составить слова из слогов. "Математические понятия": субтест изучает понимание математических терминов и систем обозначений и действий, например дробей, множеств, процентов и т.д. "Математические вычисления": субтест включает оценку умений действовать с числами (буквенные обозначения не используются). "Применение математики": субтест содержит типичные задачи, задания на измерения и составление графиков и др. "Грамотность": нахождение неправильно написанных слов. арифметические "Язык": субтест устанавливает умение правильно использовать прописные буквы, формы глаголов и местоимений, верно строить предложения, соблюдать правила пунктуации и т.д. "Социальные пауки": требуется выполнение заданий на основе знаний из истории, экономики, политики, социологии и др. "Естественные пауки": субтест содержит задания, выявляющие знание некоторых методов исследования и терминов из области физики и биологии. "Понимание прослушанного": субтест содержит задания на сохранение и организацию информации. В последней редакции тестовой батареи включены задания со свободным ответом и расширен набор заданий с выбором ответа. Это сделано для того, чтобы измерять мыслительные навыки высшего порядка. Используются также разные способы представления тестовых результатов: полученный профиль показателей по отдельным субтестам или в конкретных областях обучения подлежит горизонтальному и (или) вертикальному сравнению. Таким образом, относительное положение каждого учащегося оценивается, исходя из результатов единой выборки, и прогресс ученика от класса к классу может отображаться в единицах одной шкалы показателей. Среди тестовых батарей особое место занимают тесты, предлагаемые в выпускных классах. Это прежде всего SAT-I (Scholastic Aptitude Test или Scholastic Assessment Test), являющийся, по существу, школьным выпускным экзаменом. В 2005 г. тест сделали немного сложнее. Был введен письменный тест (эссе). Новая версия SAT получила название SAT Reasoning Test. Математическая часть была расширена, а лингвистическая часть была переименована в Critical Reading (в данном случае — анализ текста). Математический раздел тестовой батареи основан на содержании задач по алгебре (функции множеств, модуль числа, уравнение с радикалами, степени и функции) и некоторых элементах геометрии. Применяются три группы тестовых заданий — с множественным выбором, задания на сопоставление и задания со свободным конструированием ответов. Вопросы с множественным выбором представляют собой стандартные задания: надо решить задачу и выбрать правильный ответ из предложенных вариантов. В вопросах на сравнение приводятся две величины, и нужно решить, как эти величины соотносятся: равны ли они, или одна больше другой. По своему содержанию задания со свободно конструируемым ответом аналогичны заданиям с множественным выбором: следует решить задачу и обосновать ответ самостоятельно, только при этом варианты ответов не приводятся. Лингвистическая часть теста включает раздел "Анализ прочитанного". Он состоит из заданий множественного выбора (во всех вопросах надо выбрать один правильный ответ из пяти предложенных). В раздел включены три группы заданий. Первая из них -"Понимание прочитанного". В ней учащимся предлагаются один-два текста, за которыми следуют от шести до тринадцати вопросов. Это вопросы о главной идее текста, конкретных деталях, отношении автора к сути рассматриваемого вопроса, логике и технике изложения автором материала, выводах из обсуждения, значения отдельных слов. Затем следует субтест "Аналогии". Это традиционная форма тестовых заданий: предлагаются пары слов и нужно сначала определить тип связи в них, а затем найти похожую или параллельную связь в другой паре. В третьей группе заданий "Дополнения предложений" требуется восполнить пробелы в предложении путем поиска слова или фразы, которые лучше всего подходят с грамматической и смысловой точек зрения. Письменная часть лингвистической части теста подразделяется на задания множественного выбора и на написание эссе. Все задания направлены па проверку знания грамматики и умения выбора слов и словосочетаний и делятся на три типовые группы: 1) идентификация ошибок высказывания, где необходимо выявить наличие грамматических или синтаксических ошибок или же доказать, что они отсутствуют; 2) улучшения высказывания, чтобы сделать его более согласованным, при этом не изменяя его значения; 3) улучшение абзацев (шесть вопросов, сходных с предыдущим заданием, но с более развернутыми ответами). В эссе задается вступительная часть, и от учащихся требуется продолжить данное высказывание, опровергая или подтверждая его. Из 60 минут, отведенных на эту часть теста, эссе занимает 25 минут. Общее число вопросов в тестовой батарее 138, из них 60 по математике и 78 вербальных. Для каждого из вопросов субтеста предлагается несколько вариантов ответов, имеющих буквенное обозначение — А, В, С, D, Е. На отдельном листе напечатаны номера вопросов и против них — перечисленные буквы. Испытуемый должен отметить ту из них, которая, по его мнению, соответствует правильному ответу. Если он не отметит ни одного ответа, то теряет очко. Если ответит неправильно, то теряет 1/4 очка. Очевидно, что подобная система подсчета позволяет учесть даже неполное знание вопроса. Окончательной оценкой являются баллы, рассчитываемые по специальной таблице. Последняя построена так, что требуемое число баллов по каждому разделу (800) абитуриент получает, правильно решив 90% заданий. Следует отметить, что все показатели могут быть выражены в единой для всех уровней батареи шкале. Для каждой половины теста — вербальной части и математической — заранее установленное среднее (М) равно 500, а заранее определенное стандартное отклонение (5) равно 100. Взяв общий результат или обе половины теста вместе, получаем М = 1000 и 5 = 200. Поэтому если учащийся получает общий результат по шкале SAT, равный 1000, то такой учащийся имеет средний результат при сравнении с другими учащимися, тестируемыми по шкале SAT, а 50% тестируемых в нормировочной группе имеют результаты ниже, чем у этого учащегося. Чтобы войти в верхние 84% тестируемых, необходимо иметь результат 1200 по шкале SAT. Если тестируемый получает результат, равный 800 (по 400 па каждую половину теста), что требуется для поступления во многие колледжи, то ниже этого результата будут только 16% испытуемых в нормировочной группе. Альтернативой SAT Reasoning Test является тест для абитуриентов American College Testing (ACT). Он начал применяться в качестве конкурентной тестовой батареи SAT-1 с 1959 г. Стандартный вариант теста состоит из четырех разделов: английский язык, математика, чтение и научное рассуждение; в 2004 г. добавили дополнительный раздел — написание эссе, который выполняется по желанию абитуриента. Некоторые вузы США требуют именно результаты расширенного варианта ACT, так что можно сказать, что используются две версии теста: ACT и ACT Plus Writing. Раздел по английскому языку занимает 45 минут. За это время нужно прочесть пять небольших текстов и ответить на вопросы с вариантами выбора, по 15 вопросов на каждый текст. Вопросы ориентированы на исправление ошибок в текстах. На раздет математики приходится 60 минут, он и включает в себя 60 вопросов по элементарной алгебре и тригонометрии, геометрии и арифметике. Разрешается пользоваться только простыми калькуляторами без компьютеризированных функций. Раздел чтения требует 40 минут; за это время нужно прочесть 4 отрывка из разных книг или журналов (проза, социальные науки, искусство и естественные науки), и ответить на вопросы по каждому из них. На раздел научного рассуждения дается 35 минут, нужно прочесть семь отрывков и ответить на 5—7 вопросов к каждому из них. Вопросы направлены на нахождение логических связей, критический подход к разным точкам зрения, прогнозирование результатов, понимание основных концепций и теорий, представленных в текстах. Дополнительный раздел — написание эссе — занимает 30 минут. Испытуемым предлагается отрывок, демонстрирующий социальную проблему, и нужно дать развернутый комментарий. Стандартной структуры от эссе не требуется. Целиком экзамен ACT состоит из четырех тестов (по математике, чтению, английскому языку и естествознанию). За каждый из них можно получить до 800 баллов. В тест по математике входит 60 вопросов, на его выполнение отводится 60 минут. Если батареи общих достижений направлены на измерение основных образовательных навыков, то стандартизированные тесты по конкретным учебным предметам измеряют уровень достижений в предметных областях знаний, изучаемых в школе и в колледже. Применение таких тестов существенно возрастает в связи тем, что современные школьники специализируются на изучении конкретных научных дисциплин. Особое место в американской системе тестирования занимает тестовая батарея SAT-П (Subject Test). Она была введена в практику проверки знаний и умений выпускников школ в 1994 г. и включает предметные тесты по всем дисциплинам естественно-математического и гуманитарного циклов, в том числе по иностранным — европейским и азиатским — языкам. Как правило, прохождение SAT-II может быть добровольным, хотя ряд колледжей и университетов требуют обязательного его выполнения. Например, содержание раздела SAT-II по всемирной истории включает 95 вопросов, посвященных истории Африки, Азии, Северной и Южной Америки, а также европейской истории. История США сюда не входит — ей отводится отдельный тест. Абитуриенты должны уметь проанализировать отрывки из выступлений политических деятелей, различные документы, предполагается знакомство с основными направлениями искусства и материальной культуры. Ответы требуют знания и понимания как фактов прошлого, так и событий современности, причинно-следственных связей, основных тенденций развития всемирной истории. В США стандартизированные тесты разработаны почти по каждому предмету: от истории до физической культуры. Такие узко ориентированные тесты используются в качестве итоговых экзаменов по конкретному курсу обучения. Также они выполняют не менее важную функцию — определение сильных и слабых сторон в усвоении предметно-специфичных навыков и знаний. Учащиеся средних школ с дополнительной подготовкой в определенных областях знания могут пройти тестирование по принятой советом колледжей программе опережающего отбора. Особое место среди стандартизированных тестов достижений занимают тесты оценки уровня базовых навыков, используемые в качестве средства подтверждения образовательного минимума и как основа для выдачи аттестата об окончании средней школы. Необходимость разработки и применения такого рода тестов в США была инициирована докладом "Нация в опасности", представленным Национальной комиссией улучшения образования. В нем утверждалось, что американская нация стоит перед непосредственной угрозой снижения общего образовательного уровня. В связи с этим докладчики настаивали на введении минимального тестового стандарта, общего тестового пакета, на основе которого будет устанавливаться минимальный уровень школьной успешности[1]. Стандартизированные тесты на минимум базовых навыков (Minimum Competency Test) разрабатываются как для школьников, так и для взрослых в связи с реализацией образовательных программ в учреждениях особого типа (например, в тюрьмах) и для определения готовности к овладению программами профессиональной подготовки. Для оценки достижения стандартов по математике, чтению и английскому языку используются тесты минимальной компетентности. В 1992 г. в США они использовались в качестве обязательных инструментов контроля на различных ступенях обучения учебных достижений отдельных учащихся, класса в целом и для сравнения школ. Типичный тест по математике для 6-х, 8-х и 10-х классов состоит из 70 заданий с выбором ответа, разделенных на две части по 40 минут (35 заданий в каждой части). Результаты учащихся представляются по четырехуровневой шкале: усвоил отлично (уровень 4), усвоил (уровень 3), не усвоил (уровень 2) и имеет значительные проблемы (уровень 1). Для получения уровня 3 учащиеся должны выполнить 70% заданий. Учащиеся, которые не усвоили курс, обычно направляются в летние школы, в которых организованы специальные занятия для отстающих. Иногда таких учащихся оставляют па второй год. Тесты минимальной компетентности и сейчас широко используются в школах США. Они оценивают не образовательные достижения вообще, а компетентность учащегося в контексте принятия решения (на основе результатов тестирования) о дальнейшем пути испытуемого: обучении на последующей ступени школы или переходе к профессиональной деятельности. Выражение "минимальная компетентность" означает, что оценивается не любой уровень образовательной подготовки, включая и максимально возможный, а лишь достаточный и необходимый уровень для того, чтобы перейти на последнюю ступень и приступить к профессиональной деятельности. Узконаправленное обучение на формирование основных умений, проверяемых в рамках тестов минимальной компетентности, может значительно ограничить учебный процесс и снизить внимание к формированию других планируемых результатов обучения. Поэтому использование полноценных тестов достижения, оценивающих весь спектр формируемых умений на разных уровнях, является, по мнению Н. Гронлунда[2], мерой, которая частично, но не полностью может решить эту проблему. Несмотря на критику тестов минимальной компетентности, они являются основным инструментом, оценивающим достижение стандартов, разработанных в США в разных штатах. Эти тесты проводятся практически по всем предметам. Дополнительно к тестам минимальной компетентности учащиеся могут выполнить тест повышенного уровня. В сертификате об окончании школы делается запись о том, на каком уровне освоен учебный предмет — на уровне базовых навыков или повышенном уровне[3]. В Англии еще в середине XX в. была выстроена единая система предметного тестирования. В настоящее время по окончании первых трех ключевых возрастно-образовательных этапов, т.е. в возрасте 7, 11 и 14 лет, выявляется уровень достижений по "сердцевинным" предметам. Для этого учащиеся принимают участие в так называемых стандартных оценочных заданиях академических навыков (National Curriculum Tests). После окончания четвертой ключевой ступени, т.е. в возрасте 16 лет, состоится так называемый экзамен GCSE (General Certificate of Secondary Education). По его результатам выдается общее свидетельство о среднем образовании. Кроме того, у детей, начинающих школьное обучение, проводится измерение уровня достижений, служащее базой для дальнейшего обучения. Например, тесты по английскому языку в составе экзамена на получение среднего образования состоят из 2 частей. На выполнение первой части отводится 90 минут, а второй -75 минут. В первой части теста проверяются умения в области чтения и письма. В начале учащиеся, прочитав текст, должны найти соответствующую информацию в тексте, продемонстрировать понимание текста, проанализировать текст с точки зрения используемых автором приемов, языка или структуры текста (максимальная оценка за выполнение — 17 баллов). Затем учащимся предлагается ситуация (например, вообразить себя директором музея), на основе которой они должны подготовить письменную работу (написать письмо директорам школ с просьбой, чтобы их школьники чаще посещали музей), по которой оцениваются их коммуникативные умения: как учащиеся выражают и организуют свои мысли в письменном виде, а также их грамотность в написании слов и пунктуации. Учащиеся должны выполнить три задания: первое — обязательное для всех (11 баллов), второе — по выбору из двух предложенных (33 балла). Во второй части теста проверяются умения в области чтения и письма (на основе одной из пьес Шекспира: "Юлий Цезарь", "Сон в летнюю ночь" и "Ромео и Джульетта") и выполняется одно задание по выбору из двух предложенных. За выполнение данной части теста (одного задания) учащиеся могли получить максимально 22 балла. Дополнительный тест повышенного уровня (на 90 минут) оценивает те же умения, но на более высоком уровне. Этот тест предлагается пройти в другой день только тем учащимся, которые показали высокие результаты при выполнении первых двух частей. Учащиеся должны выполнить два задания (одно обязательное для всех — 18 баллов, второе по выбору из двух — 18 баллов). Все задания во всех тетрадях по всем предметам требуют самостоятельного письменного ответа. Все работы проверяются специально подготовленной группой проверяющих, и в случае расхождения мнения от оценки воздерживаются. Стандартизированные тесты входят в состав мониторинговых программ и направлены на выявление и сравнение изменений в уровнях развития имеющих межпредметный характер обще-учебных умений у учащихся разных стран. Наиболее известными тестами международного мониторинга являются PIS A (Programme for International Student Assessment — Международная программа по оценке образовательных достижений учащихся) и TIMSS (Trends in Mathematics and Science Study — Тенденции в математическом и естественнонаучном образовании). Мониторинговое исследование PISA обращено к оценке у школьников, достигших 15 лет, общеучебных умений, имеющих межпредметный характер. Также изучаются характеристики учащихся, определяющие их способность обучаться (мотивация, самооценка, учебные стратегии и др.). Используемые в PISA тесты включены в следующие разделы, которые позволяют выявить значимые для современного человека компетентности. 1. Математическая грамотность — способность человека определять и понимать роль математики в мире, в котором он живет, высказывать хорошо обоснованные математические суждения и использовать математику так, чтобы удовлетворять в настоящем и будущем потребности, присущие созидательному, заинтересованному и мыслящему гражданину. 2. Естественнонаучная грамотность — способность использовать естественнонаучные знания, выявлять проблемы и делать обоснованные выводы, необходимые для понимания окружающего мира и тех изменений, которые вносит в него деятельность человека, и для принятия соответствующих решений. 3. Грамотность чтения — способность к осмыслению письменных текстов и рефлексии на них, к использованию их содержания для достижения собственных целей, развития знаний и возможностей, для активного участия в жизни общества. В данном случае оценке подлежат не техника чтения и буквальное понимание текста, а понимание и использование прочитанного для различных целей. 4. Компетентность в решении проблем — способность использовать познавательные умения для решения межпредметных реальных проблем, в которых способ решения с первого взгляда явно не определяется. Каждый учащийся получает тестовую тетрадь, включающую примерно от 42 до 62 заданий закрытого и открытого типа (тех и других поровну). Время тестирования — 120 минут. Выполнение заданий со свободными развернутыми ответами проверяется группой опытными учителями, а затем часть работ (каждая четвертая тетрадь) перепроверяется другой труппой учителей. После этого еще выделяется часть тестовых тетрадей, которая перепроверяется международными экспертами. Задания, по которым эксперты в странах-участницах дают несогласованные оценки, исключаются из анализа. Для контроля за качеством проверки определенная часть работ учащихся перепроверяется в стране, а затем еще раз перепроверяется специалистами из других стран. Данные о надежности проверки для каждой страны приводятся в ежегодных технических отчетах. Обычно надежность результатов проверки в международных сравнительных исследованиях достаточно высокая и составляет 0,8—0,95 для большинства заданий по всем странам. За выполнение заданий теста (а также вопросов к ним) приписывается балл по международной 1000-балльной шкале, отдельно начисляемый за выполнение каждой группы заданий (по чтению, математике и естествознанию) в зависимости от того, насколько успешно данное задание выполняется всеми тестируемыми. Международная шкала имеет следующие характеристики: среднее значение было равно 500 баллам, стандартное отклонение — 100, что означает, что около 2/3 учащихся всех участвовавших в исследовании стран имеют результаты в пределах от 400 до 600 баллов. С некоторой степенью вероятности можно считать, что число баллов каждого тестируемого показывает, какие задания (самые трудные) может выполнить данный ученик. Среднее число баллов для каждой страны показывает, какие задания (самые трудные) с наибольшей вероятностью может выполнить средний ученик данной страны. Это среднее число баллов определяется как среднестатистическая оценка по кривой нормального распределения результатов учеников соответствующей страны[4]. Например, Тест математической грамотности PISA в части математического образования измеряет математическую компетентность — наиболее общие математические способности и умения, включающие математическое мышление, письменную и устную математическую аргументацию, постановку и решение проблемы, математическое моделирование, использование математического языка, использование современных технических средств (например, информатики). Тест включает 16 заданий (32 вопроса). В тесте учитываются три уровня математической компетентности: - низкий уровень (первая ступень результатов, которая оценивается числом баллов, находящимся в пределах 358—420 и ниже) включает воспроизведение математических фактов, методов и выполнение вычислений; - средний уровень (вторая и третья ступени результатов, которые оцениваются числом баллов, находящимся соответственно в диапазоне 421—482 и 483—544) — это установление связей и интеграция материала из разных математических тем, необходимых для решения поставленной задачи; — высокий уровень (четвертая, пятая и шестая ступени результатов, которые оцениваются числом баллов, находящимся соответственно в пределах 545—606, 607—668 и 669 и выше) — математические размышления, требующие обобщения и интуиции. Для проверки достижения первого уровня компетентности в основном предлагаются традиционные учебные задачи, второй уровень проверяется с помощью решения несложных жизненных задач, для проверки достижения третьего уровня разрабатываются более сложные задания, в которых прежде всего необходимо самостоятельно представить математическое описание предложенной жизненной ситуации — выделить в ситуации проблему, которая решается средствами математики, разработать соответствующую ей математическую модель и решить задачу, используя математические рассуждения и обобщения. Пример Задание, соответствующее высокому уровню компетенции. В одной из стран в 2003 г. из национального бюджета на оборону выделялось 30 млн долларов. Общий бюджет страны на этот год составил 500 млн долларов. В следующем году па оборону было выделено 35 млн долларов при общем бюджете в 605 млн долларов. Инфляция за эти два года составила 10%. 1. Вы приглашены прочесть лекцию в обществе пацифистов. Вы намерены показать, что бюджет на оборону за это время сократился. Объясните, как вы это сделаете. 2. Вы приглашены прочесть лекцию в военной академии. Вы намерены показать, что бюджет на оборону увеличился за этот период. Объясните, как вы это сделаете. Соответственно, в комплект материалов PISA включены тесты читательской грамотности, естественнонаучной грамотности и тесты компетентности в части применения предметных знаний для решения повседневных проблем. Этот последний компонент программы PISA получил английское название ССС (Cross cwricular competencies)[5]. Задания теста для оценки компетенции этого вида представляют три типа постановки проблемы: а) нахождение решения (например, нахождение болеутоляющего лекарства из предложенного списка таковых лекарственных препаратов, которое и наибольшей степени пригодно для определенного пациента); б) проведение системного анализа и формирование образа (например, покупка стеллажа для компакт-дисков: нужно сформировать предложение, в котором четко описать устройство такого стеллажа с тем, чтобы можно было быстро и легко найти требуемый диск); в) поиск ошибки, дефекта (например, эксплуатация воздушного насоса: на основании предложенного чертежа или эскиза указать возможные причины, по которым насос функционирует неправильно). Во всех тестах компетенций, как и в математическом тесте, выявляются три уровня. С целью мониторинга образовательных результатов также проводится Международное сравнительное исследование Т1М88, которое выявляет особенности подготовки выпускников начальной школы (ТШББ-Д) и выпускников 8-х классов (ТШББ-в). Изучению подлежат не только элементы освоенного предметного содержания, но и виды учебно-познавательной деятельности. В программу мониторингового исследования входят тесты достижений (12 вариантов), анкеты для учащихся, учителей математики и естественнонаучных предметов, администрации школы. Например, по математике задания охватывают следующие темы: "Числа", "Алгебра", "Измерения", "Геометрия", "Работа с данными". Оцениваются следующие умения: знания фактов и методов (воспроизводить, узнавать, вычислять, использовать инструменты), использование понятий (классифицировать, представлять, изображать, формулировать условие задачи или ситуации, различать), решение стандартных (типовых) задач (выбирать метод решения, создавать модель, интерпретировать, применять, проверять), математические рассуждения (выдвигать гипотезы, делать предположения и прогнозы, анализировать, оценивать, обобщать, устанавливать связи, решать нестандартные задачи, обосновывать, доказывать и др.) Для оценки образовательных достижений по математике и естествознанию используются задания различного типа (с выбором ответа, открытые задания с кратким и полным развернутым ответом, практические задания). Тесты, используемые в ТШББ, позволяют: осуществить сравнительную оценку уровня образовательных достижений учащихся начальной и основной школы разных стран; выявить изменения качества математического и естественнонаучного образования, которые происходят при переходе из начальной в основную школу (обследуется одна и та же совокупность учащихся: через 4 года учащиеся выпускных классов начальной школы становятся учащимися 8-го класса). Многообразие и динамичность изменений в повседневной образовательной практике учебных заведений стимулируют использование тестов как оперативной формы измерения достигнутых учебных целей. Стандартизированные тесты громоздки, как правило, не адаптированы к локальным образовательным группам, и поэтому они не могут удовлетворить потребности учителя. В англоязычных странах неформализованные тесты называются тестами, созданными учителями (teacher-made tests), или тестами учителя. Важнейшим признаком, отличающим их от формализованных, стандартизированных тестов, является то, что их создатели — сами учителя. Методические задачи, сопровождающие конструирование этих тестов, определяются профессиональной подготовкой преподавателя, имеющимися в его распоряжении техническими средствами, а также наличием времени. Другим важным признаком, отличающим неформализованные тесты от стандартизированных, является ориентация этих тестов на педагогические потребности одного класса или немногих классов. Незначительны и затраты при создании неформальных тестов. Их проверка не требует обязательных межрегиональных исследований, поскольку тесты учителя являются локально используемыми инструментами. Разнообразие программ изучения одного и того же предмета в разных классах и школах не всегда позволяет пользоваться стандартизированными тестами. Учителя сами принимают решение о функции теста, а также о возможностях его применения в учебном процессе. Сравнение уровня математических знаний у учащихся, обучающихся по традиционной программе, с группой школьников, осваивающих альтернативный учебный курс, определение исходного уровня подготовки у поступающих в вузы или же установление трудностей в усвоении новых разделов школьной программы — все эти задачи требуют разработки особых тестов. Также учителя определяют самостоятельно, кто будет подвергнут тестированию. Например, если необходимо сформировать группу учащихся для коррекционных занятий по родному языку, учитель может отделить сильных учеников, а необходимые тесты провести только с остальной частью класса. Созданию тестов обычно предшествуют наблюдение и анализ присущих учащимся способов овладения учебным материалом. Затруднения при выполнении заданий фиксируются, классифицируются и в отдельных случаях могут принимать вид "диагностограмм". Такого рода исследовательская работа сближает тесты учителя с психологическими критериально-ориентированными тестами. Распространение тестов учителя способствует приобретению навыков более детального учебного планирования, и многие традиционные письменные работы и устные проверки уступят свое место объективным методам измерения учебных достижений. Подготовка тестов для работы в классе может быть значительно улучшена, если воспользоваться опытом профессиональных создателей тестов. [1] Лефрансуа Г. Прикладная педагогическая психология. СПб., 2003. С. 381. [2] Gronlund N. Ор. cit. [3] Загвоздкин В. К. Опыт применения стандартов в системе образования Англии / Школьные технологии. o o o 2009. № 5. С. 35—44. o o [4] Толстоног В. Проблемы среднего и высшего образования в Германии. Программа международной оценки обязательного школьного бучения (PISA — Programme for International Student Assessment) и результаты тестирования школьников страны в 2003 г. URL: web-globus.de/articles/problemy_ srednego_i_vysshego_obrazovanija [5] Толстоног В. Указ. соч. Подходы к конструированию тестов достижений Основная задача, которая стоит перед разработчиком теста -это получить ответ на вопросы: что измеряется и как это возможно измерить. Ответ на первый вопрос предполагает определение цели тестирования, обоснование тестового конструкта и его операционализацию. Ответ на второй вопрос состоит в конструировании тестовых заданий и их проверке. Конструирование тестов следующей схемой: достижений осуществляется в соответствии 1) определение цели тестирования; 2) обоснование тестового конструкта и его операционализация; 3) спецификация теста; 4) эмпирическая проверка и экспертиза теста; 5) совершенствование теста и анализ результатов его применения. Определение цели тестирования со Содержание и трудность заданий теста не могут рассматриваться безотносительно к целям тестирования. Если речь идет о разработке тестов входного контроля в начале обучения (тесты исходного уровня), то их не имеет смысла наполнять особо трудными заданиями. Ведь такие тесты составляются для того, чтобы определить, какие из эталонных, т.е. соответствующих области предметного материала, знаний уже имеются у учащихся. Не варьирование уровней трудности, а исчерпывающий и репрезентативный набор заданий для подлежащей усвоению области предметного содержания является отличительной особенностью данной категории тестов. Целью тестирования может стать контроль усвоения темы, раздела или курса в целом. Для этого разрабатываются учебные тесты, обеспечивающие обратную связь о достижении образовательных целей. В этих малоформализованных тестах, как правило, должно быть предусмотрено градуирование заданий по уровню трудности, исходя из пояснения и широты охвата темы и структуры необходимых для ее усвоения умений и навыков. Э. Стоуне, в частности, отмечает, что иерархическая структура задач обучения уже позволяет распределять их по различным уровням в зависимости от сложности навыка, которому собираются обучать[1]. Для разрабатываемых диагностических тестов, фокусирующихся на анализе учебных затруднений и их причин, гораздо важнее отразить структуру конкретного умственного навыка, а не пытаться охватить всю иерархию образовательных результатов. Этот тест диагностирует прежде всего ошибки, которые допускают учащиеся. На основе их анализа определяются пути достижения приемлемого уровня обученность. Итоговый тест умений и навыков создается для того, чтобы оценить широкую область знаний, сложившуюся по завершении учебного цикла. Для того чтобы адекватно выявить весь спектр образовательных результатов, должны быть подготовлены задания, обеспечивающие выявление базовых учебных умений и их интегрированных структур. Как правило, задания в таких текстах приспособлены для определения разных уровней образовательной подготовки. В тестах мониторинга учебных достижений с целью их сравнения в разных возрастно-образовательных и социокультурных группах прежде всего делается акцент на функциональности знаний, умений, навыков. Задания в таких тестах носят междисциплинарный характер и моделируют сложные практически значимые ситуации. Это получает отражение в уровневом строении теста. Обоснование тестового конструкта Основной причиной появления недоброкачественных тестов, дискредитирующих тестирование как валидную и объективную форму оценки и контроля учебных достижений, является то, что его разработчики не умеют правильно определить измеряемый конструкт. Тестовый конструкт представляет собой детальное описание объекта оценки и контроля, а именно совокупности измеряемых характеристик, позволяющих осуществить экстраполяцию результатов тестирования на реальную образовательную ситуацию, которую моделирует тест. В тестировании учебных достижений операциональное определение того, что подлежит измерению, имеет принципиальное значение. Требуется установить связь между конструктом и наблюдаемым поведением. Это важно, поскольку интересующие и учителей, и психологов характеристики обучаемости и компетентности практически недоступны для непосредственного измерения. Необходимо концептуализировать эти характеристики в терминах знаний, умений, навыков, компетенций, с тем чтобы установить правила их измерения и определить их поведенческие индикаторы. Недооценка методов определения тестового конструкта приводит к тому, что нарушается адекватность трансляции образовательной цели в систему конкретных поведенческих задач, а ведь именно этот процесс лежит в основе тестов достижений. Если проанализировать, к примеру, типичные тестовые задания для проверки уровня сформированности умения читать, то нетрудно заметить, что часто предметом оценивания в них является не чтение как таковое, а набор учебных действий (выделение главной мысли, составление вопросов, заполнение пропусков в тексте). "Умение читать" как образовательный результат предполагает выделение факторов, оказывающих влияние на продукт чтения (понимание прочитанного), а также мыслительных операций, задействованных в процессе взаимодействия читателя с текстом. Одна из проблем, с которой сталкивается каждый, кто пытается в формулировке учебных задач вычленить цели обучения и экстраполировать их на образовательные результаты, — это неоднозначность или чрезмерная обобщенность употребляемых при этом терминов: "иметь прочные знания", "проявлять осведомленность", "способствовать углубленному пониманию". Помимо проблемы уточнения цели типа "знание чего-либо", имеется еще одна трудность — учебные задачи устанавливаются на основе того, чему должны научиться учащиеся. Формулировки типа "иметь знание" вряд ли помогут, когда учителя или психолог имеет дело с многочисленностью уровней владения некоторой предметной областью содержания. При этом остается открытым вопрос, что означают достижения в различных ситуациях обучения. Поскольку речь идет об образовательных результатах, то внимание должно быть обращено на те изменения в способностях, мыслительных действиях и стратегиях, которые происходят в ходе обучения. На вопрос "Какая разница между учеником, который прошел учебный курс, и тем, кто такого курса не проходил?" некорректно отвечать, что первый лучше знает тему "Дроби" или "Проценты". Ответ должен быть сформулирован в терминах измеряемых свойств и характеристик действия, дающих возможность дифференцировать уровни его освоения и переноса их на реальную учебную ситуацию, в которой будет применяться измеряемый конструкт. Составитель теста должен иметь дело с формулировкой учебных задач в соответствии с представлением о конкретных знаниях, умениях и навыках, которые должны усвоить ученики по окончанию курса или его определенного этапа. И эти формулировки должны быть точны и недвусмысленны. Определенный вклад в раскрытие иерархии умений в связи с целями обучения вносит хорошо известная таксономия Б. Блума[2]. В ней процесс обучения представлен в виде иерархии умений, отсюда и название — таксономия. В основании находятся несложные умения, но по мере продвижения вверх они становятся все более сложными, взаимосвязанными и более практическими. Каждая из категорий таксономии снабжена комментариями, пояснительным материалом и примерами проверочных заданий, предназначенных установить овладение умениями данного конкретного уровня. Для описания задач в каждом из разделов таксономии используются наиболее типичные глаголы. Категория "Знание" предполагает умения назвать, вспомнить, перечислить, узнать, выбрать, воспроизвести, нарисовать (например, дать определение треугольнику), тогда как категория "Понимание" связана с умениями объяснить, найти причины, проиллюстрировать примером (например, объяснить, опираясь па знание законов Ньютона, важность ремней безопасности). Чтобы максимально полно освоить конкретную тему, по Б. Блуму, необходимо овладеть всеми умениями, перечисленными в таксономии (в когнитивной области их шесть — знание, понимание, применение, анализ, синтез, оценка). Умения нижних уровней необходимы для овладения более "высокими" умениями. Например, невозможно решить арифметическую задачу на деление, если школьник не может объяснить, как надо делить, и не знает обратное делению действие умножения[3]. Именно поэтому обоснование умений в таксономии не отражает реальные задачи обучения, оно скорее определяется оценкой когнитивной требовательности этих задач. Проблема, на которую обращают внимание все, кто пытается применить таксономию Блума для разработки заданий теста в соответствии с задачами обучения, заключается в том, что уровни задач в ней не связаны между собой ни логически, ни психологически. Э. Стоуне по этому поводу замечает, что эта таксономия "не может дать больше, что в ней заключено, а именно классификация средств для систематизации уже существующих задач". Обоснование конструкта задает границы его операционализации. Операционализация — это такое определение тестового конструкта, которое устанавливает связь между конструктом и измеряемым поведением. Она включает в себя анализ характеристик тестового задания, которые наиболее полно соответствуют измеряемому конструкту. Осуществляя операционализацию конструкта "учебное достижение", разработчик теста неизбежно сталкивается со следующими проблемами: 1) как определить, включены ли все необходимые учебные задачи; 2) как узнать, адекватно ли составленные задачи отражают предметную область знания. [1] Стоунс Э. Психопедагогика. Психологическая теория и практика обучения. М. : Педагогика, 1984. С. 179-180. [2]Bloom B. S. Taxonomy of educational objectives. Handbookl : The Cognitive domain. N. Y., 1956. [3]Bloom В. S.. Hasting Th., Marians G. F. Handbook on formative and summative evaluation of students learning. N. Y.: o o o McGrowT Iill. 1971. Проективный тест Л. Сонди Портретный тест австрийского ученого Леопольда Сонди (Зонди, Шонди или Сцонди) был разработан в 1930-е гг. В России этот тест известен как "Метод портретных выборов", адаптированный Л. Н. Собчиком. Суть теста заключается в выборе из фотографий незнакомых лиц, наиболее и наименее привлекательных. В каждом из представленных портретов в наиболее чистом виде выражена определенная патология: агрессивность, истерические проявления, депрессия, маниакальное состоянием (рис 5.7). По результатам оценивают эмоциональное состояние и личностные качества, а также профессиональные и личностные предпочтения (Сонди обнаружил определенную закономерность: человек неосознанно тянется к подобным себе лицам). Рис. 5.7. Рабочий материал теста Сонди Проективная методика "Тематический апперцептивный тест" Одной из наиболее популярных и одновременно одной из наиболее сложных в проведении и обработке психодиагностических методик, используемых в мировой практике оценки личности, является проективная методика "Тематический апперцептивный тест" (ТАТ)[1]. Она была разработана в Гарвардской психологической клинике Г. Мюрреем с целью изучения воображения. Однако по мере применения теста выяснилось, что он может помочь в исследовании таких аспектов, как волнующие индивида в данный момент вопросы, круг его интересов, самооценка, потребности, мотивы, динамика личности, внутренние и личные мотивы, особенности протекания психических процессов, механизмов психологической защиты и т.п. Полный комплект ТАТ включает в себя 31 карточку (рис. 5.8), но которым оцениваемый должен составить небольшой рассказ (описать свои ощущения от просмотра рисунка). После чего эксперт-психолог делает умозаключения об оцениваемом. Главное достоинство ТАТ – разнообразие диагностической информации, которую позволяет получить этот метод. Основным недостатком является прежде всего трудоемкость как процедуры проведения обследования, так и обработки и анализа результатов. Рис. 5.8. Примеры рисунков в методике ТАТ Тест Розенцвейга Тест Розенцвейга (The Rosenzweig Picture-Frustration Study, P-F study) относится к проективным интерпретивным методикам, где в инструкции испытуемому предлагается истолковать события, отображенные на 24 стимульных картах (рис. 5.9). Методика была разработана С. Розенцвейгом в 1946 г. на основе его теории фрустрации и агрессии. Рис. 5.9. Стимульная карта теста Розенцвейга В основе теории Розенцвейг использовал представление о том, что реакции людей разделяются по типу и направленности агрессии. По типу агрессии автор выделял: препятственно-доминантные (obstacle-dominance) реакции, придающие особое значение фрустрирующему объекту; эгозащитные (ego-defense) реакции, фрустрирующие внимание па защите фрустрированного субъекта, и потребностно-персистентные (need-persistence) реакции, концентрирующиеся на конструктивном решении фрустрирующей проблемы. По направлению агрессии ученый выделил такие реакции, как экстроагрессивные (extraaggressive) – направленные па внешнее окружение, интроагрессивные (intraaggressive) – обращенные на себя, и имагрессивные (imaggressive) – реакции с попыткой "замять" проблему или "выкрутиться" из фрустрирующей ситуации. Тест Розенцвейга среди других проективных методов является наиболее пригодным для статистического анализа, достаточно надежным и валидным инструментом исследователя. За 50 лет практического использования в клинической психодиагностике зарекомендовал себя в прогнозировании наиболее вероятного поведения испытуемого в реальной фрустрирующей ситуации при условии среднего значения ее переменных. o [1] ТАТ – это проективный тест, разработанный в середине 1930-х гг. Генри Мюрреем. Он состоит из 31 карточки, содержащих различные неопределенные в своем смысле сценки. Субъекта инструктируют создать историю по каждой из картинок, включающую в себя начало, середину и конец, а также описать мысли и чувства персонажей. В отличие от теста Роршаха ТАТ представляет Стимулъный материал в более структурированном виде. Доклад. Тема: «Таксономия Бенджамина Блума» Доклад: Таксономия Бенджамина Блума Обучение – это не работа зрителя, пассивного наблюдателя. Цель обучения – развивать потребность обучающихся думать, стимулировать обдумывание и анализ того, как они учатся; развивать ответственность самих учащихся за собственное образование. Люди не учатся, просто сидя в аудитории и слушая лектора, вспоминая подготовленные задания и выдавая готовые ответы. Они должны говорить о том, что они изучают и чему научились, писать об этом, связывать это с прошлым опытом и применять изученное в повседневной жизни. И, хотя эта мысль не нова, на каждом новом этапе развития общества она вновь выходит на первый план. Еще в середине 50-х годов ХХ века американский ученый Бенджамин Блум наиболее интересное открытие сделал в результате интервью с известными музыкантами, математиками, пловцамиолимпийцами. Оно заключалось в весьма активной помощи и поддержке семьи. Он утверждает, что никто из них не добился бы выдающихся результатов самостоятельно. Блум писал: “Вопрос о том, кто из них гений, можно долго обсуждать, но выражение “гений себя проявит независимо от обстоятельств” не нашел подтверждения в данном конкретном исследовании”. Блум обследовал выдающихся людей и на основе данных, полученных в результате этой работы, он описал модель воспитательных и образовательных приемов, которые помогли полному развитию их талантов. Модель Блума ориентирована на сферу познавательных функций и названа была “Таксономия уровней познания Бенджамина Блума”. Таксономия (от греч. taxis – расположение, строй, порядок и nomos – закон) – теория классификации и систематизации сложно организованных областей действительности, обычно имеющих иерархическое строение (органический мир, объекты географии, геологии, языкознания, этнографии, математических процессов и т.д.). Термин «таксономия» впервые был предложен в 1813 годуОгюстеном Декандолем, занимавшимся классификацией растений, и изначально применялся только в биологии. Позже этот термин стал использоваться для обозначения общей теории классификации и систематизации сложных систем как в биологии, так и в других областях знаний, в лингвистике, географии, геологии и с 1956 года в педагогике. В 1956 г. группа американских ученых Блум, Энгельхарт, Фурст и Картволь предложили несколько вариантов использования “Таксономии целей обучения” в работе педагога. Эти ученые утверждают, что при составлении учебного плана преподавателям следует наметить широкий диапазон возможных целей или результатов в познавательной сфере. Сравнивая цели, заложенные в учебных планах, с принципиально возможными результатами, учителя могут определить типы заданий и дополнительные цели для включения в свой учебный план. Блум и его коллеги считают, что таксономия может оказать значительно помощь в определении целей, что в конечном итоге облегчает планирование учебного процесса и способствует выработке методики и процедур оценки. Таксономия является эффективным инструментом для анализа влияния обучения на развитие у обучаемых способностей к запоминанию, осмыслению и решению задач. Выдвинутые Блумом идеи и методы подробно изложены им в руководстве “Таксономия целей обучения”. ТаксономияБлума предлагает классификацию задач, устанавливаемых педагогамиобучаемым, и, соответственно, целей обучения. Она делит образовательные цели на три сферы: когнитивную, аффективную и психомоторную. Эти сферы можно приблизительно описать словами "знаю", "чувствую" и "творю" соответственно. Внутри каждой отдельной сферы для перехода на более высокий уровень необходим опыт предыдущих уровней, различаемых в данной сфере. Цель таксономии Блума — мотивировать педагогов фокусироваться на всех трёх сферах, предлагая, таким образом, наиболее полную форму обучения. Таксономия Блума считается базовой и существенной темой в сфере образования. Существует множество заблуждений по поводу неё, возможно, потому что информация о ней искажается, когда люди узнают о ней друг от друга. Сам Блум считал свою книгу «одной из наиболее цитируемых, но наименее читаемых книг в педагогике США». Когнитивная область Умения и навыки в когнитивной области касаются знания, понимания и критического мышления. Здесь выделяются шесть уровней. Уровни учебных целей Конкретные действия обучаемых, свидетельствующие о достижении данного уровня 1. Знание Эта категория обозначает запоминание и воспроизведение изученного материала — от конкретных фактов до целостной теории. — воспроизводит термины, конкретные факты, методы и процедуры, основные понятия, правила и принципы. 2. Понимание Показателем понимания может быть преобразование материала из одной формы выражения — в другую, интерпретация материала, предположение о дальнейшем ходе явлений, событий. — объясняет факты, правила, принципы; — преобразует словесный материал в математические выражения; — предположительно описывает будущие последствия, вытекающие из имеющихся данных. 3. Применение Эта категория обозначает умение использовать изученный материал в конкретных условиях и новых ситуациях. — применяет законы, теории в конкретных практических ситуациях; — использует понятия и принципы в новых ситуациях. 4. Анализ Эта категория обозначает умение разбить материал на составляющие так, чтобы ясно выступала структура — вычленяет части целого; — выявляет взаимосвязи между ними; — определяет принципы организации целого; — видит ошибки и упущения в логике рассуждения; — проводит различие между фактами и следствиями; — оценивает значимость данных. 5. Синтез Эта категория обозначает умение комбинировать элементы, чтобы получить целое, обладающее новизной. — пишет сочинение, выступление, доклад, реферат; — предлагает план проведения эксперимента или других действий; — составляет схемы задачи. 6. Оценка Эта категория обозначает умение оценивать значение того или иного материала. — оценивает логику построения письменного текста; — оценивает соответствие выводов имеющимся данным; — оценивает значимость того или иного продукта деятельности. Аффективная область Умения в этой области отражают то, как человек реагирует эмоционально, насколько он способен чувствовать чужую радость или боль. Аффективные цели связаны с человеческими отношениями, эмоциями, чувствами. Психомоторная область Умения в этой области описывают способность к манипуляциям с орудиями или инструментами. Психомоторные цели обычно связывают с изменением или развитием практических навыков. Следует подчеркнуть, однако, что таксономия Блума требует серьезного и тщательного изучения, а ее применение в педагогической практике – специальной подготовки. Однако элементы этой системы можно использовать в нашей повседневной работе. Знание Понимание Применение Анализ Синтез Сравнительная оценка Определение Запоминание специфической информации Понимание заданного материала независимо от другого материала Использование методов, концепций, принципов и теорий в новых ситуациях Расчленение информации на составляющие элементы Составление целого из отдельных частей Определение ценности материалов и методов, когда заданы цели, стандарты и критерии Что делает ученик Реагирует, воспринимает, вспоминает, узнает Объясняет, переводит, показывает, интерпретирует Решает новые проблемы, демонстрирует использование знаний, конструирует Обдумывает, раскрывает, перечисляет, рассуждает, сравнивает Комбинирует, составляет, придумывает, творит Оценивает, обсуждает Построение вопросов и заданий Назови Перечисли Вспомни Найди Опиши Расскажи кому-то другому… Перечисли основных персонажей… Назови как можно больше… Что является наиболее важным в… Составь список… Переформулируй Объясни Приведи примеры Нарисуй схему Структурируй Что, по твоему мнению, происходит в… Что это может означать? Сократи предложенный текст, стараясь сохранить его основную мысль Перечисли 5 основных идей текста и объясни, что они значат Покажи Основываясь на том, что ты знаешь… Создай модель Спланируй доклад по теме… Какие детали являются наиболее важными для группы… Как наилучшим образом показать твое понимание… Изучи Раздели на группы Классифицируй Найди сходства и различия Собери разные мнения Какая еще информация необходима, где можно найти такую информацию? Приведи аргументы за и против Раздели данные категории в зависимости от… Создай Составь Разработай Предскажи Предложи определение для… Представь, что… Собери доказательства в пользу… Напиши сочинение в стиле… Разработай эффективный прибор для… На основе анализа представленных данных, предложи решение… Используя данные и свою интуицию, предскажи, какова вероятность… Как может выглядеть несуществующий… Оцени, насколько… Проранжирую факты на основе критерия Предложи критерии для оценки Используя твои критические замечания по поводу…, что из… является наилучшим… Какой из вариантов является наилучшим для… Почему? Приведи доводы Ключевые слова Отступая на минуту от… Способ Я хочу… Связующей идеей является… Это напомнило мне о… Потому что Если бы это было… я бы … или… По-моему, это имеет отношение к… Означает ли это… По сравнению с …, по большей части…, с другой стороны…, интересен вопрос о …, отсюда логически следует…, является оборотной стороной…, подобным образом…, в отличие от… Предположим, составим, вероятно, представь себе, наоборот (напротив), что если…, я предвижу…, что касается… хотелось бы знать… Как бы… Почему… Представляется неуместным Согласно одной из точек зрения Самое лучшее Хуже всего Если…то…иначе Как задавать хорошие вопросы (некоторые подсказки) • Когда вы задаете вопрос, подумайте – зачем вы его задаете? • Какой ответ вы ожидаете получить на этот вопрос? • Получу ли я такой ответ, который хочу, задав этот вопрос? • Убедитесь в том, что вопросы построены поэтапно. • Начинайте с вопросов на понимание, и двигайтесь к вопросам, заставляющим обучаемых анализировать, синтезировать. • Убедитесь в том, что есть поэтапность в развитии графических навыков. • Не начинайте с самого сложного вопроса! • Будьте точными и конкретными в ваших вопросах. • ФОКУСИРУЙТЕСЬ на тех данных, которые вы предоставили. • Не задавайте вопросы, которые не связаны с данными, которые вы предоставили. Это можно делать только в том случае, если вы тестируете творческие способности обучаемых! • Не задавайте вопросы, основанные на общих знаниях обучаемых – это нечестно! • Задавайте вопросы, которые поощряют обучаемых находить личное применение данным, поиск конкретных действий. • Убедитесь в том, что у обучаемого есть время, чтобы ответить на вопросы. • Будьте осторожны с “закрытыми вопросами”. • У вас должны быть вопросы, на которые обучаемые должны ответить индивидуально, в микрогруппах, в парах, всей группой. Список используемой литературы 1. А.Н. Перре-Клермон “Роль социальных взаимодействий в развитии интеллекта детей” Москва, Педагогика, 1991 г. 2. “Одаренные дети” Перевод с английского Под общей редакцией Г.В. Бурменской, В.М, Слуцкого Москва, Прогресс, 1991 г. 3. Wikipediya.ru

Глоссарий терминов стандартизированного тестирования

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib